单次训练中的数据Shapley

分享自：
单次训练中的数据Shapley

期刊:iclr
这篇文档属于类型a，是一份关于机器学习数据价值评估新方法的原创性研究报告。以下为完整的学术报告：
ICLR 2025研究报道：单次训练中实现数据Shapley值计算—”In-Run Data Shapley”的创新框架一、作者与机构本研究由Princeton University的Jiachen T. Wang和Prateek Mittal、UC Berkeley的Dawn Song以及Virginia Tech的Ruoxi Jia合作完成，论文发表于2025年国际学习表征会议（ICLR 2025）。
二、研究背景科学领域：研究属于机器学习中的数据价值分配（Data Valuation）领域，核心问题是量化训练数据对模型性能的贡献。传统方法依赖数据Shapley值（Data Shapley）（基于合作博弈论），需对不同数据子集重复训练模型，计算成本高昂且无法评估单次训练中数据的动态贡献。
 研究动机：
 1. 效率问题：大规模基础模型（如GPT-3）的预训练数据规模庞大，传统方法计算不可行；
 2. 概念局限：现有方法评估的是数据对“学习算法”的全局贡献，而非特定训练运行中的实际贡献；
 3. 社会需求：数据版权争议（如《纽约时报》诉OpenAI案）亟需精准的数据贡献评估工具。
三、研究方法与流程1. 核心创新：In-Run Data Shapley研究提出“训练中数据Shapley”概念，通过以下步骤实现单次训练内的数据价值评估：
 - 局部效用函数（Local Utility Function）：将全局训练过程分解为每个梯度更新步骤的贡献评估。在第t次迭代中，定义效用函数：
 [
 u^{(t)}(s; z^{\text{val}}) = \ell(\tilde{w}_{t+1}(s), z^{\text{val}}) - \ell(wt, z^{\text{val}})
 ]
 其中( \tilde{w}{t+1}(s) )为使用子集( s )更新后的参数，( z^{\text{val}} )为验证数据。
 - Shapley值累积：通过泰勒展开近似计算每一步的边际贡献，并累加所有迭代步骤的值（利用Shapley值的线性性质）。
2. 高效计算技术一阶近似：基于梯度点积（gradient dot-product）闭式解：
 [
 \phi_z \approx -\eta_t \nabla \ell(w_t, z^{\text{val}}) \cdot \nabla \ell(w_t, z)
 ]
 通过“Ghost Dot-Product”技术在单次反向传播中计算所有样本对的梯度点积，避免逐样本计算。
 
二阶近似：引入Hessian矩阵捕捉数据点间交互作用：
 [
 \phi_z \approx \text{一阶项} + \eta_t^2 \nabla \ell(w_t, z)^\top H(z^{\text{val}}t) \left( \sum{z_j \in b_t} \nabla \ell(w_t, z_j) \right)
 ]
 使用“Ghost Gradient-Hessian-Gradient”技术在两轮反向传播内完成计算。
 
3. 实验验证模型与数据：在GPT-2和Pythia-410M上测试，数据集为The Pile（800GB多样化文本）。
 
效率对比：优化后的一阶方法运行时耗仅比常规训练增加5%（表1），二阶方法耗时翻倍但仍显著优于传统方法（30倍提速）。
 
四、主要结果数据质量优化：在The Pile数据集中，16%的数据被识别为负贡献（含低质量或噪声），移除后模型收敛速度提升25%（图2）。
 
贡献的动态性：早期训练阶段通用语料贡献显著，后期领域专用语料主导（如arXiv数学文本在后期价值占比突增，图3）。
 
生成AI版权启示：即使生成内容与训练数据无词法重复（仅主题相似），原数据仍可能具有显著贡献（表2），挑战现有版权争议中的“逐字复制”判定标准。
 
五、结论与价值科学价值：首次实现基础模型预训练阶段的数据价值量化，解决了传统方法的计算瓶颈与概念局限。
 
应用价值：
 数据清洗：高效识别低质量数据，提升训练效率；
 
版权补偿：为生成AI的数据使用费分配提供量化依据；
 
可解释性：动态追踪数据贡献，辅助模型诊断。
 
六、研究亮点方法论创新：将Shapley值计算分解为迭代步骤，结合泰勒展开与高效梯度计算技术。
 
工程突破：Ghost系列算法实现近乎零额外开销的实时评估。
 
跨领域影响：为AI伦理、数据经济及模型透明度研究提供新工具。
 
七、其他发现扩展性：方法理论上适用于更大规模的工业级模型（如GPT-3），仅受GPU内存限制。
 
局限性：需预定义验证数据，且对Adam等优化器的适配仍需进一步研究。
 
报告完
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问