这篇文档发表于《IEEE Transactions on Knowledge and Data Engineering》2024年10月第36卷第10期,由Shuxian Li(南方科技大学/香港浸会大学)、Liyan Song(哈尔滨工业大学)、Xiaoyu Wu(华为技术有限公司)、Zheng Hu(华为技术有限公司)、Yiu-Ming Cheung(香港浸会大学)和Xin Yao(岭南大学/伯明翰大学)共同完成。研究得到了中国国家自然科学基金(NSFC)、广东省重点实验室等多个项目的资助,属于机器学习领域中类别不平衡学习(class imbalance learning)与集成学习(ensemble learning)的交叉研究方向。
学术背景
类别不平衡问题在真实世界的数据分类任务中普遍存在(如医疗诊断、行为识别等),即某些类别的样本量(少数类/minority classes)远少于其他类别(多数类/majority classes),导致传统分类模型偏向多数类而忽略少数类的预测性能。尽管现有方法(如数据采样、代价敏感学习和集成学习)能部分缓解此问题,但传统方法存在两个核心缺陷:
1. 类间不平衡比(imbalance ratio)仅按类别样本量分配权重,无法反映同一类别内样本分布的差异性;
2. 静态权重机制无法根据训练过程中基学习器(base learners)的动态表现调整样本权重。
为此,本研究提出一种新型自适应权重框架AdaBoost.AD(Adaptive Distribution-based AdaBoost),通过融合类间不平衡比、类内密度信息和动态训练状态三类因子,显著提升多类别不平衡分类任务的性能。
研究流程与方法
1. 数据分布建模
- 类间不平衡比(γ):以最小类别样本量为基准(如某三类样本量比例为10:5:2,则第二类的γ=5⁄2=2.5),值越大表示该类样本越“充足”,对应权重应降低。
- 类内密度因子(ρ⁻¹):通过k近邻(k=5)计算样本局部密度,稀疏区域的样本权重更高。例如,图1展示某类别在重叠区域的密集与稀疏子分布,密集区误分类对整体性能影响更大,需优先优化。
- 动态训练状态(σ⁽ᵗ⁾):基于当前所有基学习器的预测概率差(正确分类概率与最大错误分类概率之差+1),量化样本的“分类难度”。σ⁽ᵗ⁾表示样本易被误分,需增加权重。
2. 自适应权重集成框架
将上述三因子统一为单一权重系数α⁽ᵗ⁾,嵌入AdaBoost的迭代训练中:
- 基学习器构建:每轮训练后,按公式(11)计算基学习器权重βₜ,反映其当前分类能力。
- 样本权重更新:动态调整权重ω⁽ᵗ⁺¹⁾(公式12),使模型持续关注难样本与少数类。
3. 实验验证
- 数据集:12个多类和8个二类不平衡公开数据集(来自KEEL库),剔除样本量<10的类别以确保5折交叉验证可靠性。
- 对比方法:包括经典AdaBoost变体(如AdaBoost.M1+ADASYN)、最新集成方法(如LexiBoost、Dual-LexiBoost)和代价敏感算法(如JanEnsemble)。
- 评价指标:G-mean(几何均值)和Avg-AUC(平均AUC),避免多数类偏差。
主要结果
- 性能优势:AdaBoost.AD在G-mean和Avg-AUC上分别于12/20和11/20数据集上取得最优结果(表IV-V)。Friedman检验(p<0.05)及事后检验(Holm-Bonferroni)表明其显著优于对比方法(如对LexiBoostM1在19/20数据集上胜出)。
- 组件有效性:消融实验(表VI-VII)显示移除任一组件(γ、ρ⁻¹或σ⁽ᵗ⁾)均导致性能显著下降(如移除γ使G-mean排名从1.8降至3.35),验证了三因子的必要性。
- 鲁棒性:Spearman相关性分析(表IV末行)表明AdaBoost.AD对不平衡比的敏感度极弱(ρ=-0.097),优于多数对比方法。
结论与价值
- 理论贡献:首次将类间-类内数据分布与动态训练状态统一为自适应权重,为不平衡学习提供了新范式。
- 应用价值:在医疗罕见病诊断等少数类关键场景中,可减少误诊风险。
- 方法论创新:
- 动态权重机制:通过σ⁽ᵗ⁾实时调整样本重要性,克服静态权重的局限性;
- 密度感知:ρ⁻¹因子解决了同类样本的异质性分配问题。
亮点
- 三重融合框架:首次同时建模类别、样本和时序三维度的不平衡性。
- 可扩展性:算法可兼容其他基学习器,且理论推导(第V-B节)严格遵循AdaBoost的损失最小化原则。
- 开源意义:代码公开促进领域发展,华为等企业的合作显其实用潜力。
其他发现
实验揭示了少数类“过强调”可能牺牲多数类性能的现象(如contraceptive数据集中的类1),未来可探索类别权重阈值优化策略。此外,自适应机制的计算开销与传统AdaBoost相当,适合大规模应用。