主要作者与机构
本研究由南方科技大学可信自主系统研究院的张清泉(IEEE会员)、刘佳琳副研究员(IEEE高级会员)及岭南大学数据科学学院的姚新(IEEE Fellow)合作完成,发表于《IEEE Transactions on Evolutionary Computation》。研究得到中国国家重点研发计划(2023YFE0106300)、国家自然科学基金(62250710682)及广东省重点实验室项目等多个科研基金支持。
学术背景与研究动机
在人工智能伦理日益受关注的背景下,机器学习模型的公平性(fairness)成为核心议题。当前存在至少25种不同的公平性量化指标(如统计奇偶性差异、均衡几率差异等),这些指标与模型准确性(accuracy)之间常存在复杂冲突关系。传统多目标进化学习(MOEL)方法需预先定义一组静态的公平性指标作为优化目标,但存在三大局限:(1) 代表性指标集的确定依赖先验知识与高昂计算成本;(2) 最优指标集因数据集差异而不同;(3) 训练过程中指标间相关性会动态变化。为此,本研究提出公平感知多目标进化学习框架(FAMOEL),首次实现在模型训练过程中动态自适应地确定代表性公平指标集。
研究方法与技术路线
1. 框架设计
FAMOEL框架(算法1)通过七阶段工作流实现:
- 初始化阶段:构建包含λ个同构人工神经网络(ANN)的初始种群,每个ANN的权重编码为实数向量个体。
- 动态目标选择:采用改进的ORNCIE算法(算法2)每代动态选择代表性目标子集(如从26个目标中选取5-8个关键指标)。该算法创新性地引入三项增强策略:
• 采用10代预热期(warm starting)全面探索目标空间
• 基于最近10代MNCIE矩阵滑动平均计算目标相关性(取代单代矩阵)
• 设置固定阈值τ=0.22识别冗余目标(替代动态分类策略)
- 进化优化:使用Two_Arch2多目标优化器,通过高斯变异(mutation strength: 0.0001-0.05)和权重交叉算子生成子代模型。
- 部分训练:在每代使用SGD优化器(learning rate: 0.0001-0.001)对子代模型进行局部调参。
- 评估验证:在验证集上计算26个目标值(1个准确性+25个公平性指标)。
- 生存选择:基于动态目标子集进行非支配排序,保留最优λ个个体。
- 循环迭代:重复上述过程直至100代终止。
主要发现与结果
1. 性能优势
在Bank、Adult等7/12数据集上,FAMOEL的HV值显著优于对比方法(如Adult数据集:5.48 vs MOEL_REP 4.99)。关键发现包括:
- 动态目标选择使模型在未显式优化的指标上仍获提升(如仅优化6个目标时,25个公平指标平均改进率达83%)
- 训练过程中目标相关性呈现显著时变特征(图4显示Drug数据集上fair4与fair16-24的相关系数从+0.6变为-0.4)
结论与价值
1. 理论贡献
- 首次实现目标函数的动态自适应构建,突破传统MOEL依赖固定目标集的局限
- 提出改进的MNCIE矩阵计算方法,增强目标选择的稳定性
研究亮点
1. 核心发现
- 证明训练过程中最优目标集会自然演变(图5显示LSAT数据集上目标集大小在4-9间波动)
- 发现高频选择目标(如f25差分公平性)具有跨数据集通用性(表VII)