《IEEE Transactions on Evolutionary Computation》2024年4月刊载的综述论文《A Survey on Unbalanced Classification: How Can Evolutionary Computation Help?》由Wenbin Pei(大连理工大学)、Bing Xue(新西兰惠灵顿维多利亚大学)、Mengjie Zhang(新西兰惠灵顿维多利亚大学)、Lin Shang(南京大学)、Xin Yao(南方科技大学/英国伯明翰大学)和Qiang Zhang(大连理工大学)联合完成。本文系统梳理了进化计算(Evolutionary Computation, EC)在不平衡分类(Unbalanced Classification)领域的应用进展、技术贡献与未来挑战。以下是核心内容的学术报告:
不平衡分类是机器学习的重要课题,指数据集中某类样本数量显著少于其他类(例如医疗诊断中癌症患者占比极小)。传统分类算法默认样本均衡,易导致模型偏向多数类。2009年后,尽管已有综述讨论不平衡分类算法(如He和Garcia的里程碑工作),但缺乏专门针对EC技术在该领域作用的系统性分析。本文填补这一空白,旨在:
1. 揭示EC如何通过数据重平衡(如采样方法)或算法改进(如代价敏感学习)解决不平衡问题;
2. 总结EC与现有非EC技术的协同机制;
3. 识别当前局限并指明未来方向。
(1) 欠采样(Undersampling)优化
- 问题:随机欠采样(RUS)易丢失多数类关键样本,而EC通过全局搜索能力筛选代表性样本。
- 典型方法:
- 进化欠采样(EUS):基于遗传算法(GA)的染色体编码实例选择状态,分全局选择(允许删除少数类样本)和多数类选择(仅优化多数类)两种机制。实验表明,后者因搜索空间小更易获得高精度子集(如EUSBoost结合Boosting提升多样性)。
- 聚类辅助EC:如Kim等提出基于k-means和GA的阈值优化方法,减少噪声实例干扰。
- PSO应用:Zhang等利用粒子群优化(PSO)选择样本并训练极限学习机(ELM),以分类误差为适应度函数。
(2) 过采样(Oversampling)改进
- SMOTE的局限性:固定采样率导致过泛化(Over-generalization)和噪声放大。
- EC解决方案:
- GASMOTE:GA优化少数类样本的采样率,缓解过拟合。
- 参数自动化:DE优化SMOTE的最近邻数量、合成样本比例等参数(如SMOTEtuned方法)。
- 直接生成样本:De等人提出基于差分进化(DE)的实例生成技术。
(3) 混合采样(Hybrid Sampling)
- EHSBoost:结合GA编码多数类样本状态与少数类过采样率,实验显示其性能优于单一采样方法。
(1) 代价敏感学习(Cost-Sensitive Learning)
- 挑战:人工设计代价矩阵(Cost Matrix)困难且易引入偏差。
- EC贡献:
- GA优化类依赖代价:Perry等将代价矩阵元素编码为染色体基因,以分类器性能为适应度。
- GP同时学习分类器与代价矩阵:如Pei等提出CS-GP方法,左子树构建分类器,右子树学习代价值,以G-mean为评价指标。
- 动态代价调整:如BSA算法优化实例依赖代价矩阵,提升金融欺诈检测效果。
(2) 直接演化分类器
- 遗传编程(GP):通过改进适应度函数(如F-measure、G-mean)、多目标优化(如NSGA-II平衡TPR与TNR)或代价敏感机制提升性能。
- 学习分类器系统(LCS):参数自适应(如XCS调整规则发现率)和适应度修正(如类敏感准确率)缓解不平衡影响。
- 人工免疫系统(AIS):天然具备欠采样与类平衡能力,在电力故障检测中表现鲁棒。
EC技术已广泛应用于以下场景(表IV部分示例):
- 医疗诊断:癌症患者识别(少数类误诊代价极高);
- 工业控制:电力系统故障检测(故障样本稀有);
- 网络安全:异常流量分类(如DoS攻击检测);
- 金融风控:信用卡欺诈预测(欺诈交易占比不足1%)。
该综述为EC与不平衡分类的交叉研究提供了方法论指导,同时强调了实际应用中需权衡效率与精度的核心矛盾。