分享自:

如何在没有模型崩溃的情况下合成文本数据?

期刊:Proceedings of the 42nd International Conference on Machine Learning

这篇文档属于类型a,是一篇关于如何避免合成数据导致模型崩溃(model collapse)的原创性研究论文。以下是详细的学术报告:


一、主要作者与机构

本研究由以下学者合作完成:
- 第一作者:Xuekai Zhu(1,2单位)
- 合作作者:Daixuan Cheng(2单位)、Hengli Li(2,3单位)、Kaiyan Zhang(4单位)、Ermo Hua(4单位)、Xingtai Lv(4单位)、Ning Ding(4单位)、Zhouhan Lin†(1,5单位)、Zilong Zheng†(2单位)、Bowen Zhou†(4,5单位)。
机构归属
1. Lumia Lab, Shanghai Jiao Tong University
2. State Key Laboratory of General Artificial Intelligence, BigAI
3. Institute for Artificial Intelligence, Peking University
4. Department of Electronic Engineering, Tsinghua University
5. Shanghai Artificial Intelligence Laboratory
发表信息:论文发表于*Proceedings of the 42nd International Conference on Machine Learning*(PMLR 267, 2025)。


二、学术背景

科学领域:本研究属于人工智能(AI)与自然语言处理(NLP)领域,聚焦于大语言模型(LLM)训练中合成数据(synthetic data)的使用问题。
研究背景
1. 问题提出:随着生成式AI(如GPT系列)的普及,合成数据在训练中的占比逐渐增加。然而,迭代使用合成数据会导致“模型崩溃”(model collapse),即模型性能因数据质量退化而持续下降。
2. 现有研究局限:此前工作(如Shumailov et al., 2024)仅关注迭代训练中的崩溃现象,但未解决非迭代场景下合成数据与真实数据混合时的性能下降问题。
3. 研究目标
- 量化合成数据对语言模型训练的影响;
- 提出一种避免模型崩溃的合成数据生成方法——Token-Level Editing(TOEDIT)


三、研究流程与方法

1. 非迭代模型崩溃的验证

  • 实验设计
    • 数据集:混合真实数据(Dolma)与合成数据(Cosmopedia),比例从0%到100%。
    • 模型:预训练GPT-2 Small(124M参数)和OLMO(1B参数),评估其在Paloma基准和22个子领域的困惑度(PPL)。
  • 关键发现
    • 合成数据比例与模型性能呈负相关(图2);
    • 纯合成数据训练的模型PPL最高(51.93 vs. 人类数据20.99)。

2. 合成数据失效原因分析

  • 统计方法
    • 分布分析:使用LLaMA-3-8B估计合成数据与真实数据的PPL分布,发现合成数据缺乏长尾分布(图3);
    • n-gram特征:合成数据的n-gram特征过度集中(图11-14),覆盖范围仅为真实数据的25%。
  • 数据选择实验:基于DSIR(Xie et al., 2023)的重要性采样未能纠正分布偏移(图4)。

3. TOEDIT方法提出

  • 核心思想:通过标记级编辑(token-level editing)保留真实数据分布,生成半合成数据(semi-synthetic data)。
  • 算法流程(算法1):
    1. 使用预训练模型(如LLaMA-3-8B)计算每个标记的条件概率;
    2. 若概率超过阈值(p=0.99),则从先验分布中重采样替换该标记;
    3. 保留低概率标记以维持数据多样性。
  • 理论证明:通过线性模型框架,证明TOEDIT可将测试误差限制在有限上界(公式6),避免误差累积(对比公式7)。

4. 实验验证

  • 场景:从头预训练(PT)、持续预训练(CPT)、监督微调(SFT)。
  • 结果
    • PT:OLMO-1B在8项通用任务上平均性能提升(32.75→33.11);
    • CPT:在生物医学领域任务中,OLMO-1B平均得分从36.63提升至40.89(表3);
    • SFT:LLaMA-3-8B在指令微调任务中表现提升(如FLANv2从70.18→70.65,表4)。

四、主要结果与逻辑链条

  1. 合成数据的缺陷:覆盖狭窄、特征集中,导致模型泛化能力下降(图3, 表1)。
  2. TOEDIT的有效性
    • 理论:通过约束编辑操作矩阵(mi)的秩,控制误差传播(定理2);
    • 实践:在PT/CPT/SFT中均提升性能,验证其鲁棒性(表2-4)。
  3. 与现有方法的对比
    • 纯合成数据:引发模型崩溃;
    • TOEDIT:通过局部编辑保留真实数据分布,实现性能增益。

五、结论与价值

  1. 科学价值
    • 首次系统揭示了非迭代场景下合成数据的负面影响;
    • 提出TOEDIT为合成数据的使用提供了理论保障。
  2. 应用价值
    • 可用于提升大语言模型在低资源领域(如生物医学、金融)的训练效率;
    • 为未来GPT-{N}模型的混合数据训练提供了可行方案。

六、研究亮点

  1. 重要发现
    • 合成数据的分布偏移是模型崩溃的主因;
    • TOEDIT在多种训练场景中均有效。
  2. 方法创新
    • 首次将标记级编辑与理论误差界结合;
    • 开发了高效编辑工具(基于vLLM引擎)。
  3. 数据规模:实验覆盖50B标记数据,统计结果具有高可信度。

七、其他价值


此研究为AI社区提供了合成数据使用的关键指导,未来可扩展至多模态数据合成领域。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com