在日益复杂且数据丰富的现实世界中,机器学习模型常常面临数据分布不平衡的挑战。这种不平衡可能体现在类别层面,例如图像分类中某些类别的样本数量远远少于其他类别;也可能出现在群体层面,即数据点根据其敏感属性(如种族、性别)划分为不同群体,而某些群体在数据中代表性不足。这种不平衡不仅损害了模型在少数类或少数群体上的泛化性能,更可能引发严重的公平性问题,使得模型在实际应用中对弱势群体产生系统性偏见。
传统的应对策略,如重加权交叉熵损失函数,虽然在理论上对最大化平衡准确性等公平性目标是贝叶斯一致的(Bayes-consistent),但在现代大规模深度学习模型的过参数化(overparameterized)背景下,其效果大打折扣。因为大容量神经网络可以完美拟合(perfectly fit)训练数据,实现零训练误差,这使得训练损失函数不再能可靠地指示测试集上的真实误差。因此,如何为这些过参数化模型设计出能够有效优化公平性目标的训练损失函数,成为了一个亟待解决的关键问题。
针对这一挑战,来自加州大学河滨分校的 Mingchen Li、Xuechen Zhang、Jiasi Chen、Samet Oymak 以及来自英属哥伦比亚大学的 Christos Thrampoulidis 合作提出了 AutoBalance 框架,并以此为题撰写了论文《AutoBalance: Optimized Loss Functions for Imbalanced Data》。该研究发表于第35届神经信息处理系统大会(NeurIPS 2021)。这是一个创新性的双层优化(Bilevel Optimization)框架,旨在自动设计训练损失函数,以优化混合了精度和公平性的目标。
研究的核心流程与方法 AutoBalance 的核心思想是将损失函数的设计本身建模为一个优化问题。具体而言,它包含三个主要阶段:搜索阶段、重训练阶段和评估阶段,其核心流程如图1b所示。
1. 搜索阶段:双层优化与损失函数自动设计 这是 AutoBalance 最具创新性的部分。研究者将数据集 S 分割为训练集 St 和验证集 Sv(例如80%-20%分割)。整个搜索过程被形式化为一个双层优化问题: * 下层优化(Lower-level Problem):固定一个由超参数 α 参数化的训练损失函数 L_train,在训练集 St 上优化模型权重 θ,即 min_θ L_train(f_θ; α)。 * 上层优化(Upper-level Problem):在下层优化的基础上,通过监控验证集 Sv 上的表现,来优化损失函数的超参数 α,目标是使模型在验证集上关于公平性目标(如平衡误差)的损失 L_fair 最小化,即 min_α L_fair(f_θ),其中 f_θ 是下层问题的解。
这种设计的关键洞见在于:虽然模型可以轻易地过拟合训练集(达到100%训练准确率),但验证集作为训练时未见的数据,更难被拟合,因此能为测试目标提供一个更一致、更可靠的估计器。
a. 参数化损失函数设计: 研究采用了一个灵活的、可参数化的交叉熵损失函数族作为搜索空间的基础: ℓ_train(y, f(x)) = -w_y * log( exp(σ(Δ_y)*f_y(x) + l_y) / Σ_i exp(σ(Δ_i)*f_i(x) + l_i) ) 其中,超参数 α 包含了三组向量: * w_y:传统的类别权重。 * l_y:加性对数调整(additive logit adjustment),对应于LDAM损失的思想。 * Δ_y:乘性对数调整(multiplicative logit adjustment),通过sigmoid函数σ限制在(0,1)范围,对应于向量缩放(Vector Scaling)损失的思想。
这种设计允许对每个类别进行“个性化”处理。值得注意的是,研究者证明了当Δ_i ≠ Δ_j时,该损失函数对于标准误差或平衡误差不再具有一致性,但这在过参数化、零训练误差的“插值区域”(interpolating regime)可能反而是有利的。
b. 个性化数据增强: 为了进一步提升性能,AutoBalance 还将个性化数据增强(Personalized Data Augmentation, PDA)整合到损失函数设计中。即,为不同类别(或群体)应用不同的数据增强策略 a_y。研究者从理论上证明了,对于线性可分的二分类任务,为少数类应用更强的数据增强(例如,在输入周围更大的L2球内采样),等价于在参数化损失函数中为少数类设置特定的 l_y 和 Δ_y,从而可以将决策边界向有利于少数类的方向移动,提高平衡准确率。
c. 算法实现与超参数空间缩减: 搜索阶段的算法流程如算法1所示。首先进行一段“预热”训练,使用一个与公平性目标一致的损失函数(如平衡交叉熵)初始化模型和损失函数超参数。预热后,开始交替执行:1)从训练集采样批次,用当前损失函数更新模型参数θ;2)从验证集采样批次,通过近似隐式微分计算超梯度 ∇_α L_fair,并更新损失函数超参数α。隐式微分通过Neumann级数近似逆Hessian矩阵来实现,避免了直接计算的高昂开销。
面对大规模类别(如iNaturalist有8,142类)导致超参数α维度爆炸的问题,研究者提出了一个巧妙的降维策略:基于类别频率进行聚类。他们将k个类别按样本频率聚合成k’(k’ << k)个簇,同一簇内的类别共享相同的超参数 l' 和 Δ'。这极大地缩小了搜索空间,提高了优化效率和泛化能力,防止对验证集过拟合,特别是对于尾部类别(可能只有极少验证样本)至关重要。
2. 重训练阶段:利用最优损失函数训练最终模型 搜索阶段结束后,得到一组最优的损失函数超参数 α。在此阶段,研究者将原始训练数据S重新合并(不再分割),使用固定好的 α 所定义的损失函数,从头开始重新训练模型,得到最终的模型参数 θ*。
3. 评估阶段:在测试集上进行性能评估 使用重训练阶段得到的最终模型 θ*,在独立的测试数据集上进行评估,报告目标公平性指标(如平衡准确率)的结果。
主要实验结果与发现 研究者们在类别不平衡和群体不平衡两种场景下,对AutoBalance进行了广泛的实证评估。
1. 类别不平衡场景下的评估: 使用的数据集包括CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT和iNaturalist-2018,不平衡因子ρ最高达500。 * 性能优势:如表1所示,AutoBalance(特别是同时优化 l 和 Δ 的设计,并以LA损失初始化)在所有数据集上都取得了最佳的平衡准确率,超越了包括交叉熵、LDAM、LA(τ=1)、CDT在内的多种最先进损失函数。 * 超参数演化与可解释性:图3展示了在CIFAR-100-LT上训练时,l 和 Δ 随训练轮次的变化。结果显示,AutoBalance自动为少数类簇学习到了更大的 l_y 和 Δ_y 值,这与理论直觉一致——为少数类分配更大的边际(margin)以提升其分类性能。同时优化 l 和 Δ 比单独优化其中一个更稳定、效果更好。 * 个性化数据增强的增益:如表2所示,将PDA与参数化损失函数结合,能够带来进一步的性能提升,验证了通过增强策略个性化处理不同类别子群的有效性。 * 验证集分割的关键作用:图4的实验表明,在过参数化模型中,训练误差会迅速过拟合至零,而验证误差则能更好地追踪测试误差。增大验证集规模有助于提升最终测试性能,这证实了在过参数化机制下,利用验证集进行模型/损失函数选择是不可或缺的。
2. 群体不平衡场景下的评估: 此场景关注敏感属性导致的偏差,研究使用了Waterbirds数据集,其中鸟类类型(类)与背景(群体)存在虚假关联。 * 优化目标:研究以优化“平等机会差异”(Difference of Equal Opportunity, DEO)等公平性指标与标准准确率之间的帕累托前沿为目标。 * 损失函数扩展:将参数化损失函数扩展为 ℓ_train(y, g, f(x); α),其中的超参数 w_yg, l_yg, Δ_yg 现在对每个(类别,群体)对进行个性化设置。 * 卓越的权衡性能:如图5所示,当将验证损失 L_fair 设置为 (1-λ_val)·CE + λ_val·CE_DEO 并让AutoBalance自动设计训练损失时,其在(标准误差,公平性指标)的帕累托前沿上显著优于所有基线方法(如简单混合损失、群体LA损失等)。这意味着AutoBalance能够设计出更有效的损失函数,在不过度牺牲整体准确率的前提下,更好地实现群体公平。 * 具体指标提升:表3显示,在明确以公平性为目标的设定下(λ_val=0.1),AutoBalance在平衡误差、最差(类别,群体)误差和DEO上均大幅领先于包括分布鲁棒优化(DRO)在内的其他方法。
研究结论与价值 本研究的核心结论是,通过双层优化框架自动设计损失函数,是解决过参数化深度学习模型中数据不平衡问题的有效且强大的范式。AutoBalance不仅能够针对类别不平衡问题设计出超越现有方法的损失函数,还能够灵活地适用于更复杂的群体敏感分类场景,优化多种公平性目标。
研究的亮点在于: 1. 方法创新性:首次将损失函数自动设计系统地形式化为一个针对公平性目标的双层优化问题,为不平衡学习提供了一个全新的、自动化且原则性的解决方案。 2. 理论结合实践:提出的参数化损失函数融合了加性和乘性对数调整的最新理论见解,并通过个性化数据增强建立了与理论间的直观联系。同时,通过类簇化策略解决了大规模搜索的工程挑战。 3. 泛化能力强:框架不局限于特定的不平衡类型或公平性指标,可广泛应用于类别不平衡、群体不平衡乃至联邦学习中的客户端数据异构等场景。 4. 实证充分性:在多个标准长尾数据集和群体公平基准上进行了全面实验,结果均展示了其优越性和鲁棒性,并对算法行为(如超参数演化)提供了有意义的解释。
潜在影响与未来方向: AutoBalance属于自动化机器学习(AutoML)范畴,它通过优化过程降低了手动设计损失函数所需的知识门槛,但以增加计算成本为代价。其未来方向可能包括:将框架扩展到更广泛的公平性约束和度量、与模型架构搜索结合、探索更高效的超梯度估计方法,以及在极度不平衡(如每个类仅有个位数样本)场景下的稳定性和有效性提升。这项工作为构建更公平、更稳健的机器学习模型迈出了重要一步。