分享自:

不平衡分类中的进化计算应用综述

期刊:ieee transactions on evolutionary computationDOI:10.1109/tevc.2023.3257230

《IEEE Transactions on Evolutionary Computation》2024年4月刊载的综述论文《A Survey on Unbalanced Classification: How Can Evolutionary Computation Help?》由Wenbin Pei(大连理工大学)、Bing Xue(新西兰惠灵顿维多利亚大学)、Mengjie Zhang(新西兰惠灵顿维多利亚大学)、Lin Shang(南京大学)、Xin Yao(南方科技大学/英国伯明翰大学)和Qiang Zhang(大连理工大学)联合完成。本文系统梳理了进化计算(Evolutionary Computation, EC)在不平衡分类(Unbalanced Classification)领域的应用进展、技术贡献与未来挑战。以下是核心内容的学术报告:


一、研究背景与目标

不平衡分类是机器学习的重要课题,指数据集中某类样本数量显著少于其他类(例如医疗诊断中癌症患者占比极小)。传统分类算法默认样本均衡,易导致模型偏向多数类。2009年后,尽管已有综述讨论不平衡分类算法(如He和Garcia的里程碑工作),但缺乏专门针对EC技术在该领域作用的系统性分析。本文填补这一空白,旨在:
1. 揭示EC如何通过数据重平衡(如采样方法)或算法改进(如代价敏感学习)解决不平衡问题;
2. 总结EC与现有非EC技术的协同机制;
3. 识别当前局限并指明未来方向。


二、核心技术框架与贡献

1. EC在数据层面的应用

(1) 欠采样(Undersampling)优化
- 问题:随机欠采样(RUS)易丢失多数类关键样本,而EC通过全局搜索能力筛选代表性样本。
- 典型方法
- 进化欠采样(EUS):基于遗传算法(GA)的染色体编码实例选择状态,分全局选择(允许删除少数类样本)和多数类选择(仅优化多数类)两种机制。实验表明,后者因搜索空间小更易获得高精度子集(如EUSBoost结合Boosting提升多样性)。
- 聚类辅助EC:如Kim等提出基于k-means和GA的阈值优化方法,减少噪声实例干扰。
- PSO应用:Zhang等利用粒子群优化(PSO)选择样本并训练极限学习机(ELM),以分类误差为适应度函数。

(2) 过采样(Oversampling)改进
- SMOTE的局限性:固定采样率导致过泛化(Over-generalization)和噪声放大。
- EC解决方案
- GASMOTE:GA优化少数类样本的采样率,缓解过拟合。
- 参数自动化:DE优化SMOTE的最近邻数量、合成样本比例等参数(如SMOTEtuned方法)。
- 直接生成样本:De等人提出基于差分进化(DE)的实例生成技术。

(3) 混合采样(Hybrid Sampling)
- EHSBoost:结合GA编码多数类样本状态与少数类过采样率,实验显示其性能优于单一采样方法。

2. EC在算法层面的应用

(1) 代价敏感学习(Cost-Sensitive Learning)
- 挑战:人工设计代价矩阵(Cost Matrix)困难且易引入偏差。
- EC贡献
- GA优化类依赖代价:Perry等将代价矩阵元素编码为染色体基因,以分类器性能为适应度。
- GP同时学习分类器与代价矩阵:如Pei等提出CS-GP方法,左子树构建分类器,右子树学习代价值,以G-mean为评价指标。
- 动态代价调整:如BSA算法优化实例依赖代价矩阵,提升金融欺诈检测效果。

(2) 直接演化分类器
- 遗传编程(GP):通过改进适应度函数(如F-measure、G-mean)、多目标优化(如NSGA-II平衡TPR与TNR)或代价敏感机制提升性能。
- 学习分类器系统(LCS):参数自适应(如XCS调整规则发现率)和适应度修正(如类敏感准确率)缓解不平衡影响。
- 人工免疫系统(AIS):天然具备欠采样与类平衡能力,在电力故障检测中表现鲁棒。


三、应用领域与典型案例

EC技术已广泛应用于以下场景(表IV部分示例):
- 医疗诊断:癌症患者识别(少数类误诊代价极高);
- 工业控制:电力系统故障检测(故障样本稀有);
- 网络安全:异常流量分类(如DoS攻击检测);
- 金融风控:信用卡欺诈预测(欺诈交易占比不足1%)。


四、挑战与未来方向

  1. 评估指标选择:需系统研究不同适应度函数(如AUC vs G-mean)对EC性能的影响;
  2. 高维不平衡数据:现有EC特征选择(FS)方法需结合类别不平衡特性优化;
  3. 小规模数据:探索迁移学习、小样本学习与EC的结合;
  4. 流数据动态平衡:应对类别比例随时间变化的问题;
  5. 计算效率:代理模型(Surrogate Model)加速进化过程;
  6. 模型可解释性:借助可解释AI(XAI)增强GP等算法的决策透明度。

五、学术价值与亮点

  1. 首篇EC在不平衡分类的全面综述,涵盖GA、PSO、DE等10余种EC技术;
  2. 提出“EC-非EC协同框架”,如EUSBoost、GASMOTE等混合方法;
  3. 揭示代价矩阵自动学习的潜力,为代价敏感学习提供新范式;
  4. 指出EC在流数据和小样本场景的空白,推动未来研究。

该综述为EC与不平衡分类的交叉研究提供了方法论指导,同时强调了实际应用中需权衡效率与精度的核心矛盾。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com