这篇文档属于类型a,是一份关于机器学习数据价值评估新方法的原创性研究报告。以下为完整的学术报告:
ICLR 2025研究报道:单次训练中实现数据Shapley值计算—”In-Run Data Shapley”的创新框架
一、作者与机构
本研究由Princeton University的Jiachen T. Wang和Prateek Mittal、UC Berkeley的Dawn Song以及Virginia Tech的Ruoxi Jia合作完成,论文发表于2025年国际学习表征会议(ICLR 2025)。
二、研究背景
科学领域:研究属于机器学习中的数据价值分配(Data Valuation)领域,核心问题是量化训练数据对模型性能的贡献。传统方法依赖数据Shapley值(Data Shapley)(基于合作博弈论),需对不同数据子集重复训练模型,计算成本高昂且无法评估单次训练中数据的动态贡献。
研究动机:
1. 效率问题:大规模基础模型(如GPT-3)的预训练数据规模庞大,传统方法计算不可行;
2. 概念局限:现有方法评估的是数据对“学习算法”的全局贡献,而非特定训练运行中的实际贡献;
3. 社会需求:数据版权争议(如《纽约时报》诉OpenAI案)亟需精准的数据贡献评估工具。
三、研究方法与流程
1. 核心创新:In-Run Data Shapley
研究提出“训练中数据Shapley”概念,通过以下步骤实现单次训练内的数据价值评估:
- 局部效用函数(Local Utility Function):将全局训练过程分解为每个梯度更新步骤的贡献评估。在第t次迭代中,定义效用函数:
[
u^{(t)}(s; z^{\text{val}}) = \ell(\tilde{w}_{t+1}(s), z^{\text{val}}) - \ell(wt, z^{\text{val}})
]
其中( \tilde{w}{t+1}(s) )为使用子集( s )更新后的参数,( z^{\text{val}} )为验证数据。
- Shapley值累积:通过泰勒展开近似计算每一步的边际贡献,并累加所有迭代步骤的值(利用Shapley值的线性性质)。
2. 高效计算技术
- 一阶近似:基于梯度点积(gradient dot-product)闭式解:
[
\phi_z \approx -\eta_t \nabla \ell(w_t, z^{\text{val}}) \cdot \nabla \ell(w_t, z)
]
通过“Ghost Dot-Product”技术在单次反向传播中计算所有样本对的梯度点积,避免逐样本计算。
- 二阶近似:引入Hessian矩阵捕捉数据点间交互作用:
[
\phi_z \approx \text{一阶项} + \eta_t^2 \nabla \ell(w_t, z)^\top H(z^{\text{val}}t) \left( \sum{z_j \in b_t} \nabla \ell(w_t, z_j) \right)
]
使用“Ghost Gradient-Hessian-Gradient”技术在两轮反向传播内完成计算。
3. 实验验证
- 模型与数据:在GPT-2和Pythia-410M上测试,数据集为The Pile(800GB多样化文本)。
- 效率对比:优化后的一阶方法运行时耗仅比常规训练增加5%(表1),二阶方法耗时翻倍但仍显著优于传统方法(30倍提速)。
四、主要结果
- 数据质量优化:在The Pile数据集中,16%的数据被识别为负贡献(含低质量或噪声),移除后模型收敛速度提升25%(图2)。
- 贡献的动态性:早期训练阶段通用语料贡献显著,后期领域专用语料主导(如arXiv数学文本在后期价值占比突增,图3)。
- 生成AI版权启示:即使生成内容与训练数据无词法重复(仅主题相似),原数据仍可能具有显著贡献(表2),挑战现有版权争议中的“逐字复制”判定标准。
五、结论与价值
- 科学价值:首次实现基础模型预训练阶段的数据价值量化,解决了传统方法的计算瓶颈与概念局限。
- 应用价值:
- 数据清洗:高效识别低质量数据,提升训练效率;
- 版权补偿:为生成AI的数据使用费分配提供量化依据;
- 可解释性:动态追踪数据贡献,辅助模型诊断。
六、研究亮点
- 方法论创新:将Shapley值计算分解为迭代步骤,结合泰勒展开与高效梯度计算技术。
- 工程突破:Ghost系列算法实现近乎零额外开销的实时评估。
- 跨领域影响:为AI伦理、数据经济及模型透明度研究提供新工具。
七、其他发现
- 扩展性:方法理论上适用于更大规模的工业级模型(如GPT-3),仅受GPU内存限制。
- 局限性:需预定义验证数据,且对Adam等优化器的适配仍需进一步研究。
报告完