一种基于分层经验伯恩斯坦抽样的夏普利值估计方法

分享自：
一种基于分层经验伯恩斯坦抽样的夏普利值估计方法

期刊:proceedings of the thirtieth international joint conference on artificial intelligence (ijcai-21)
Mark A. Burgess 和 Archie C. Chapman 是本文的主要作者，分别来自 Australian National University 和 The University of Queensland。本研究发表于 “Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence (IJCAI-21)“。
本研究围绕合作博弈理论(Cooperative Game Theory)中的核心概念 Shapley Value 展开。Shapley Value 是一种重要的数学工具，用于在合作群体中公平地分配收益或成本。它在多个应用领域中具有重要价值，例如加权投票博弈、成本与收益分摊问题、网络中心性测度以及机器学习模型的解释等。然而，由于 Shapley Value 的精确计算需要指数级的运算复杂度，实践中常通过采样方法来进行估算。为此，本研究提出了一种基于分层采样（Stratified Sampling）的新方法，目标是改进 Shapley Value 的估算效率，同时降低估算误差。
研究背景与目标Shapley Value 是合作博弈理论中的一个关键概念，其理论基础由公平分配规则定义。具体而言，对于某一合作群体，Shapley Value 的计算方式是通过评估每位参与者在群体中所有可能加入顺序中的平均边际贡献。然而，由于参与者数目的增加，边际贡献的组合呈指数级增长，从而导致精确计算变得几乎不可行。这种计算困难激发了通过采样方法对 Shapley Value 进行近似估算的研究热点。
现有的采样估算方法大多基于简单随机采样(Simple Random Sampling)或分层随机采样(Stratified Random Sampling)，并引入了诸如 Hoeffding’s 不等式与 Neyman 分配规则等统计技术，但在样本分配效率以及误差控制方面仍有改进空间。本研究通过引入新的集中不等式（Concentration Inequality），提出了一种称为 Stratified Empirical Bernstein Bound(SEBB) 的方法，并基于此开发了一种新型分层采样策略 Stratified Empirical Bernstein Method (SEBM)，用于更加高效地估算 Shapley Value。
研究流程本研究分为以下几个步骤：
（1）集中不等式的推导：
首先，为了建立对 Shapley Value 估算误差的更加严格的概率界限，研究者从 Chernoff Bounds 和概率联合公式出发，引入了基于经验数据的分布不等式，即 Stratified Empirical Bernstein Bound (SEBB)。该不等式结合了分层样本方差信息，可以精确表达误差的上下界。推导过程中使用了多种概率工具，包括 Hoeffding 的引理、Bernstein 不等式、方差关系推导等。此外，研究还分别探讨了替代抽样(with replacement)与非替代抽样(without replacement)情况下的集中不等式特性。
（2）采样算法的设计：
基于上述推导的 SEBB 不等式，研究开发了一种迭代优化的采样策略 SEBM。简而言之，SEBM 通过逐步计算每一层添加额外样本后的误差范围变化，并选择能最小化总体误差的层次进行采样分配，从而在有限的采样预算内最大程度降低估算误差。此算法需要初始化每层至少两个样本以便估算方差，并通过对每次新增样本进行动态调整，达到优化目标。此方法的核心是一种在线(sequential)的迭代优化过程。
（3）数值评估：
研究者在四种典型的合作博弈模型上测试了提出的 SEBM 方法。这些模型包括：
Airport Game（机场博弈）： 模拟多个玩家按不同权重对资源进行分配；
Voting Game（投票博弈）： 用于加权投票中的决策影响分析；
Simple Reward Division（简单奖励分配）： 玩家权重线性影响收益分配；
Complex Reward Division（复杂奖励分配）： 玩家权重与分配关系具有非线性特性。
在实验中，研究者将 SEBM 与 Hoeffding-bound 方法、随机采样方法、以及采用 Neyman-type 分配的改进采样方法进行了对比，通过动态调整采样预算对比估算的精度。
主要结果研究的数值评估表明，SEBM 方法在估算精度与采样效率方面，几乎全面优于现有主流方法：
误差表现： SEBM 在所有测试游戏中都显著降低了 Shapley Value 的估算误差。例如，在 Airport Game 和 Voting Game 中，SEBM 方法的估算误差在样本预算较高时相对于现有方法有数量级的提升。
算法效率： 通过引入集中不等式，SEBM 能以显著更少的采样数获得更高的估算精度，特别是在非替代抽样场景中表现尤为突出。
一致性表现： 不论测试游戏中的群体特性是线性或非线性分配规则，SEBM 均保持稳定的性能优势。
研究结论与意义本研究提出的分层采样方法通过引入 SEBB 提升了误差分析的严格性，并在采样分配过程中实现了算法效率和计算复杂度的平衡。其主要科学价值体现在：
在理论层面，SEBB 为分层随机采样的误差界限提供了一种矩阵级别的完善方法，能够推广到更广泛的统计估算场景；
在应用层面，新方法极大提升了 Shapley Value 的估算实用性，适用于经济学、社交网络分析、机器学习模型解释等多个领域；
在工程实践中，该方法对于处理具有高计算复杂度的合作游戏模型具有重要意义，特别是在大规模博弈或涉及复杂收益规则的系统中。
研究亮点首创性： SEBB 不等式在分层采样策略中首次引入了经验方差控制与边界收紧机制，为后续采样优化提供了理论基础；
高效计算： SEBM 方法有效应对了现有方法在采样分配中的低效问题，并适用于多种抽样场景；
广泛适用性： 本方法理论上能够扩展到多维数据分层采样以及其他复杂问题建模中。
未来应用潜力研究还探讨了 SEBB 在非合作博弈与多维分层数据分析中的潜在扩展，包括其在统计推断与分布优化中的进一步应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问