本文介绍了一篇发表于2023年7月《IEEE Transactions on Fuzzy Systems》期刊上的研究论文,题为《Feature Selection Approach Based on Improved Fuzzy C-Means with Principle of Refined Justifiable Granularity》。该研究由Wentao Li、Shichao Zhai、Weihua Xu、Witold Pedrycz、Yuhua Qian、Weiping Ding和Tao Zhan共同完成,分别来自西南大学、山西大学、阿尔伯塔大学和南通大学等机构。研究得到了中国国家自然科学基金、中国博士后科学基金、重庆市教委科技研究项目以及江苏省教育厅自然科学重点基金的支持。
特征选择(Feature Selection)是机器学习中的一个重要任务,旨在从原始特征空间中选择重要特征,去除冗余和无关特征,以提高模型的准确性和简化学习任务。随着数据集的规模不断扩大,特征选择能够显著减少存储空间和计算开销。然而,传统基于模糊C均值(Fuzzy C-Means, FCM)的聚类算法在处理高维数据时存在局限性,尤其是在处理密度不均匀的数据集时表现不佳。为了解决这一问题,本文提出了一种基于改进FCM和可证明粒度原则(Principle of Refined Justifiable Granularity)的特征选择方法。
本文的研究方法主要包括以下几个步骤:
改进的FCM算法:传统的FCM算法基于等价关系进行数据划分,但在实际应用中,这种划分过于严格,且容错机制较差。本文提出了一种基于改进FCM的二元关系(Binary Relation),通过调整权重参数的值,能够适应不同的应用场景,并具有自适应性。
特征选择方法:本文设计了一种基于前向启发式特征选择(Forward Heuristic Feature Selection, FHFS)的方法,通过定义聚合度和离散度来度量特征的重要性,从而构建低维特征空间。该方法能够在保留原始数据信息的同时,最大化信息的保留。
实验验证:为了验证所提出方法的有效性,研究使用了来自加州大学欧文分校(UCI)的9个高维数据集和8个图像数据集进行实验。实验结果表明,FHFS算法在特征选择和分类性能上优于其他传统的特征选择方法,如主成分分析(PCA)、非负矩阵分解(NMF)和因子分析(FA)等。
实验结果表明,FHFS算法在处理高维数据时表现出较强的鲁棒性和合理性。例如,在皮肤数据集中,使用FHFS算法进行特征选择后,分类器的性能显著优于其他算法。在KNN分类器中,FHFS处理后的数据分类准确率比原始数据提高了6%,比EFSF算法提高了2%。在决策树分类器中,FHFS处理后的数据分类准确率比原始数据提高了5%,比EFSF算法提高了2%。在贝叶斯分类器中,FHFS处理后的数据分类准确率比原始数据提高了16%,比NMF算法提高了4%。
此外,FHFS算法在图像特征提取中也表现出色。通过图像分割和特征选择,FHFS能够保留更多的重要特征,从而提高图像识别的精度和效率。
本文提出了一种基于改进FCM和可证明粒度原则的特征选择方法,通过引入新的二元关系和特征重要性度量标准,显著提高了特征选择的效率和准确性。该方法不仅在高维数据处理中表现出色,还在图像特征提取中展现了显著的优势。未来的研究可以进一步探索不同聚类算法的改进,以及异构数据的特征选择方法。
本文还讨论了权重参数α对二元关系和图像分割结果的影响,发现当α在特定范围内时,二元关系能够满足对称性和自反性,从而在图像分割和识别中表现出色。此外,本文还对算法的时间复杂度进行了分析,并与其他特征选择算法进行了比较,结果表明FHFS算法在时间复杂度和鲁棒性上具有优势。
本文提出的方法为高维数据处理和图像特征提取提供了一种有效的解决方案,具有重要的理论和应用价值。