本研究由来自Princeton University的Bohdan Turbal、Ukrainian Catholic University的Iryna Voitsitska以及Rutgers University的Lesia Semenova共同完成,并以论文《ELLICE: Efficient and Provably Robust Algorithmic Recourse via the Rashomon Sets》的形式发表于第39届神经信息处理系统大会(NeurIPS 2025)。
本研究属于人工智能领域下的可解释性与可信人工智能范畴,具体聚焦于算法追索问题。当机器学习模型做出对用户不利的决策(如拒绝贷款)时,算法追索旨在为用户提供具体、可操作的建议,指导其如何改变特征以获得更有利的结果。当前主流方法依赖于反事实解释,即为用户提供一个最小的特征修改方案,使其在新的输入下获得期望的预测。然而,现有方法隐含了一个关键假设:模型是固定且精确已知的。
现实中,机器学习模型会因数据更新、正则化调整或再训练而发生演变。鲁棒性效应(Rashomon effect)或模型多重性(model multiplicity)现象指出,存在许多性能相近但内部逻辑不同的模型都能很好地拟合数据。这些模型构成的集合被称为鲁棒性集。对于该集合内的不同模型,基于单一模型决策边界生成的反事实解释可能变得不稳定——对一个模型有效的建议,在另一个模型下可能失效。这严重削弱了算法追索在实际应用中的可靠性和一致性。因此,本研究的目标是开发一个能够生成可证明鲁棒(即在对等模型集合内普遍有效)且高效的反事实解释框架,从而在模型不确定性的环境下提供稳定可靠的追索建议。
本研究的工作流程可以概括为理论框架构建、优化问题求解、实证验证与比较三大阶段。
第一阶段:理论框架构建 研究首先定义了核心概念。对于一个在参数空间中的经验风险最小化器(ERM)模型θ̂,其ε-鲁棒性集定义为所有目标函数值不超过最优值加上容忍度ε的模型参数集合:R(ε) := {θ ∈ Θ : L̂(θ) ≤ L̂(θ̂) + ε}。研究者提出,对于线性模型或带ℓ2正则化的均方误差损失,该集合在参数空间中呈椭球体形状。受此启发,他们通过对损失函数在ERM点θ̂处的Hessian矩阵进行局部几何逼近,构建了鲁棒性集的椭球体近似:R̂(ε) = {θ : ½ (θ - θ̂)ᵀ H (θ - θ̂) ≤ ε},其中H为加正则化项的损失函数的Hessian矩阵。这个正定矩阵确保了椭球体的良好定义。
研究的关键创新在于将鲁棒反事实生成问题形式化为一个双层优化问题。目标是找到一个距离原始输入x0最近的反事实点xc,同时要求该点在整个近似鲁棒性集R̂(ε)内的所有模型下,其预测输出(对于线性模型为θᵀxc)都至少达到目标阈值t。这被表述为:最小化‖xc - x0‖²₂,约束条件为 min_{θ∈R̂(ε)} θᵀxc ≥ t。
第二阶段:优化问题求解 研究的重要突破在于通过定理1给出了内层最小化问题的封闭形式解。该定理证明,对于给定的xc,其在椭球体内的最差模型输出为:θ̂ᵀxc - √(2ε xcᵀ H⁻¹ xc)。同时,实现该最差输出的模型参数θ_worst(xc)也有显式表达式。这一结论使得原本复杂的双层优化问题被转化为一个可直接处理的、凸的二次约束二次规划问题:最小化‖xc - x0‖²₂,约束条件为θ̂ᵀxc - √(2ε xcᵀ H⁻¹ xc) ≥ t。
基于此,研究团队实现了两种生成反事实的方法: 1. 连续反事实生成:直接使用梯度下降法求解上述凸优化问题,在特征空间中搜索最优的xc。对于多层感知机,该过程在最后一层嵌入空间中进行,通过定理1计算最差模型,并将梯度映射回原始输入特征。 2. 数据支持的反事实生成:为确保反事实位于数据流形上(即更具现实性),该方法直接从训练数据集中筛选。首先,利用定理1计算每个训练样本xi在鲁棒性集下的“鲁棒逻辑值”:θ̂ᵀxi - √(2ε xiᵀ H⁻¹ xi)。然后,筛选出鲁棒逻辑值超过目标阈值t的所有样本,构成一个稳定子集S_stable。最后,在该子集中使用k-d树最近邻搜索,寻找与原始输入x0距离(如ℓ2距离)最近的样本作为反事实解释。
第三阶段:实证验证与比较 研究在九个高风险的表格数据集上(涵盖贷款、医疗、司法等领域)进行了广泛的实证评估,比较了ELLICE与多个基线方法的性能。基线方法包括:T-Rex、基于区间抽象的方法(Delta-robustness)、ProPlace和ROAR。评估流程严谨: 1. 评估器构建:由于精确计算鲁棒性集是棘手的,研究采用了三种方法来近似生成近优模型集合,作为评估鲁棒性的代理:随机重训练、鲁棒性丢弃法、对抗性权重扰动。这些评估器集合被定义为具有特定目标容忍度ε_target的近优模型集。 2. 实验设置:采用4折分层交叉验证。在每个内折中,训练一个基础模型,并基于该模型生成评估器集合。所有反事实生成方法的超参数(如ELLICE的ε、其他方法的扰动半径δ等)均在验证集上进行网格搜索以最大化有效性,并严格控制调优时间。 3. 评估指标: * 有效性:在基础模型上,反事实是否成功翻转了预测。 * 鲁棒性:在评估器集合中的所有模型上,反事实保持有效的比例。这是衡量方法核心目标的关键指标。 * 邻近性:反事实与原始输入之间的ℓ2距离,衡量修改的幅度。 * 合理性:使用局部异常因子评估反事实是否位于数据的高密度区域。
实验结果为ELLICE框架的有效性、高效性和理论特性提供了强有力的支持。
生成高度鲁棒的反事实:如图1和表1所示,ELLICE在几乎所有数据集和模型类型(线性模型和MLP)上,其生成的对抗事实的鲁棒性均显著且一致地高于所有基线方法。随着评估器容忍度ε_target的增加,ELLICE的鲁棒性能够保持稳定甚至不下降,而其他方法的鲁棒性则可能出现显著衰减。这直接证明了ELLICE的椭球体近似能够有效捕捉模型不确定性,并生成在此不确定性范围内普遍有效的追索建议。
理论保证得到验证:研究提出的多个理论定理在实验中得到了体现。定理2(唯一性) 和定理3(稳定性) 为方法的可靠性奠定了基础。定理5(鲁棒性-邻近性权衡) 在实践中得到验证:图2©显示,追求更高的鲁棒性(通过增大ε)通常需要更大的特征修改(更大的ℓ2距离)。重要的是,在相同的修改距离下,ELLICE能达到比其他方法更高的鲁棒性,表明其在权衡曲线上占据了更优的位置。定理4(与重要特征方向对齐) 所暗示的性质,即ELLICE倾向于沿Hessian矩阵主特征向量方向(通常对应预测最敏感的特征方向)进行修改,使得其建议更具信息性和影响力。
卓越的计算效率:表2和附录中的运行时间数据清晰地展示了ELLICE的高效性。其生成单个反事实的绝对时间通常在2秒以内。与基线相比,ELLICE实现了高达数个数量级的加速比。这主要归功于定理1提供的封闭形式解,它将复杂的鲁棒性验证转化为一个可以直接计算的公式,避免了基线方法中常见的混合整数规划或多次模型推断等高成本操作。
支持可操作性约束:研究强调了ELLICE框架的实用性,可以方便地融入用户自定义的约束,例如指定某些特征(如年龄)为不可变、限制特征的变化范围、或鼓励生成稀疏的修改(改变更少的特征)。附录中的案例表明,通过施加这些约束,ELLICE能够将不切实际的建议(如改变年龄)转化为实际可行的建议(如调整贷款额度和期限),从而生成既鲁棒又现实的追索方案。
本研究的核心结论是:标准的算法追索在模型多重性的背景下是脆弱的,而ELLICE框架为解决这一问题提供了一个高效、可证明鲁棒且可操作的解决方案。ELLICE通过椭球体近似鲁棒性集,并利用封闭形式的优化解,生成了在近似集内所有模型下均有效的反事实解释。
其科学价值在于: * 理论贡献:建立了将鲁棒性集几何与鲁棒追索联系起来的理论框架,提供了关于有效性、唯一性、稳定性、特征对齐和权衡关系的形式化保证。 * 方法创新:提出了一种新颖的、基于优化的鲁棒反事实生成方法,克服了现有方法在计算复杂度、局部鲁棒性或缺乏全局保证方面的局限性。 * 视角转变:将鲁棒性效应从一个需要消除的缺陷,重新定义为一种必须加以考虑的内在不确定性来源,从而引导出更稳定的追索方法。
其应用价值在于: * 可靠性:为用户提供的建议不会因为模型的小幅更新或替换而失效,增强了算法决策系统的信任度和公平性。 * 实用性:支持丰富的可操作性约束,使生成的建议更符合现实世界的限制和伦理考量。 * 高效性:计算速度快,使其能够应用于需要实时或批量生成追索建议的实际场景。
研究也坦诚地讨论了其局限性。首先,椭球体近似是对真实鲁棒性集的简化,对于高度非线性的模型或全局模型多样性,其逼近精度可能受限。其次,对于深度神经网络,部分形式化保证(如唯一性、稳定性)仅在最后的嵌入空间成立,扩展到原始输入空间的全局保证是未来研究方向。尽管如此,ELLICE为在模型不确定性下提供可靠追索迈出了重要一步,并为后续研究奠定了坚实的基础。代码已在GitHub上开源,促进了研究的可复现性和进一步发展。