分享自:

单次训练中的数据Shapley

期刊:iclr

这篇文档属于类型a,是一份关于机器学习数据价值评估新方法的原创性研究报告。以下为完整的学术报告:


ICLR 2025研究报道:单次训练中实现数据Shapley值计算—”In-Run Data Shapley”的创新框架

一、作者与机构

本研究由Princeton University的Jiachen T. Wang和Prateek Mittal、UC Berkeley的Dawn Song以及Virginia Tech的Ruoxi Jia合作完成,论文发表于2025年国际学习表征会议(ICLR 2025)。

二、研究背景

科学领域:研究属于机器学习中的数据价值分配(Data Valuation)领域,核心问题是量化训练数据对模型性能的贡献。传统方法依赖数据Shapley值(Data Shapley)(基于合作博弈论),需对不同数据子集重复训练模型,计算成本高昂且无法评估单次训练中数据的动态贡献。
研究动机
1. 效率问题:大规模基础模型(如GPT-3)的预训练数据规模庞大,传统方法计算不可行;
2. 概念局限:现有方法评估的是数据对“学习算法”的全局贡献,而非特定训练运行中的实际贡献;
3. 社会需求:数据版权争议(如《纽约时报》诉OpenAI案)亟需精准的数据贡献评估工具。

三、研究方法与流程

1. 核心创新:In-Run Data Shapley

研究提出“训练中数据Shapley”概念,通过以下步骤实现单次训练内的数据价值评估:
- 局部效用函数(Local Utility Function):将全局训练过程分解为每个梯度更新步骤的贡献评估。在第t次迭代中,定义效用函数:
[
u^{(t)}(s; z^{\text{val}}) = \ell(\tilde{w}_{t+1}(s), z^{\text{val}}) - \ell(wt, z^{\text{val}})
]
其中( \tilde{w}
{t+1}(s) )为使用子集( s )更新后的参数,( z^{\text{val}} )为验证数据。
- Shapley值累积:通过泰勒展开近似计算每一步的边际贡献,并累加所有迭代步骤的值(利用Shapley值的线性性质)。

2. 高效计算技术
  • 一阶近似:基于梯度点积(gradient dot-product)闭式解:
    [
    \phi_z \approx -\eta_t \nabla \ell(w_t, z^{\text{val}}) \cdot \nabla \ell(w_t, z)
    ]
    通过“Ghost Dot-Product”技术在单次反向传播中计算所有样本对的梯度点积,避免逐样本计算。
  • 二阶近似:引入Hessian矩阵捕捉数据点间交互作用:
    [
    \phi_z \approx \text{一阶项} + \eta_t^2 \nabla \ell(w_t, z)^\top H(z^{\text{val}}t) \left( \sum{z_j \in b_t} \nabla \ell(w_t, z_j) \right)
    ]
    使用“Ghost Gradient-Hessian-Gradient”技术在两轮反向传播内完成计算。
3. 实验验证
  • 模型与数据:在GPT-2和Pythia-410M上测试,数据集为The Pile(800GB多样化文本)。
  • 效率对比:优化后的一阶方法运行时耗仅比常规训练增加5%(表1),二阶方法耗时翻倍但仍显著优于传统方法(30倍提速)。

四、主要结果

  1. 数据质量优化:在The Pile数据集中,16%的数据被识别为负贡献(含低质量或噪声),移除后模型收敛速度提升25%(图2)。
  2. 贡献的动态性:早期训练阶段通用语料贡献显著,后期领域专用语料主导(如arXiv数学文本在后期价值占比突增,图3)。
  3. 生成AI版权启示:即使生成内容与训练数据无词法重复(仅主题相似),原数据仍可能具有显著贡献(表2),挑战现有版权争议中的“逐字复制”判定标准。

五、结论与价值

  • 科学价值:首次实现基础模型预训练阶段的数据价值量化,解决了传统方法的计算瓶颈与概念局限。
  • 应用价值
    • 数据清洗:高效识别低质量数据,提升训练效率;
    • 版权补偿:为生成AI的数据使用费分配提供量化依据;
    • 可解释性:动态追踪数据贡献,辅助模型诊断。

六、研究亮点

  1. 方法论创新:将Shapley值计算分解为迭代步骤,结合泰勒展开与高效梯度计算技术。
  2. 工程突破:Ghost系列算法实现近乎零额外开销的实时评估。
  3. 跨领域影响:为AI伦理、数据经济及模型透明度研究提供新工具。

七、其他发现

  • 扩展性:方法理论上适用于更大规模的工业级模型(如GPT-3),仅受GPU内存限制。
  • 局限性:需预定义验证数据,且对Adam等优化器的适配仍需进一步研究。

报告完

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com