本研究的共同第一作者为 Yunzhen Feng(Meta FAIR & 纽约大学数据科学中心)、Elvis Dohmatob(Meta FAIR)、Pu Yang(北京大学数学科学学院),其他作者包括 Francois Charton(Meta FAIR)和 Julia Kempe(纽约大学数据科学中心及Courant研究所)。该研究于2024年在ICML 2024的TF2M Workshop上发表,收录于PMLR 235。
本研究属于机器学习与生成模型领域,聚焦于模型崩溃(Model Collapse)问题——即当大语言模型(LLM)在自身生成的合成数据(synthesized data)上迭代训练时,性能逐渐退化。随着ChatGPT等生成模型日益普及,合成数据在代码生成、数学推理等领域广泛应用,但其潜在风险(如数据质量下降、多样性丧失)尚未被充分研究。
本研究旨在回答:是否可以通过反馈机制(如人类或机器验证)提升合成数据的质量,从而避免模型崩溃? 为此,研究团队从理论分析和实证验证两方面展开,证明在合成数据中引入强化选择(reinforcement)(如剔除错误样本或保留最优生成结果)能有效防止模型崩溃,并恢复甚至超越原始数据的性能。
研究首先构建了一个理论框架,假设数据服从高斯混合分布(Gaussian Mixture),分类器为线性模型。关键步骤如下:
- 数据生成:合成数据由生成模型产生,标签错误率为 *p*(即生成标签与真实标签不一致的概率)。
- 反馈选择:引入验证器(verifier)对合成数据进行筛选,筛选策略分为:
- Oracle修剪:仅保留正确标签(ϕ=1, ψ=0)。
- 弱监督修剪:基于线性分类器(如RLHF)部分剔除错误样本(ϕ, ψ∈(0,1))。
- 理论结论:
- 存在一个临界崩溃点(breakdown point) *p⋆=1/(1+ψ/ϕ)*。当 p < p⋆ 时,下游模型可达100%准确率;当 p > p⋆ 时,模型完全失效。
- 验证器质量决定崩溃阈值:Oracle验证器(ψ/ϕ→0)可容忍更高错误率(*p⋆→1*),而随机筛选(ψ/ϕ=1)的阈值仅为50%。
在有限数据场景下,研究通过仿真验证理论预测:
- 实验设计:生成合成数据后,用不同质量的验证器(如Oracle、弱监督分类器)筛选数据,训练下游线性模型。
- 关键发现:
- Oracle筛选:性能与原始数据训练相当,验证了理论的最优性。
- 弱监督筛选:若生成器质量不足(*p*较高),筛选可能因保留错误样本而损害性能。
研究进一步在真实场景(基于Llama-2-7B和XLSum数据集的新闻摘要任务)中验证理论:
- 数据生成:用12.5%原始数据微调生成模型,生成全量合成摘要。
- 筛选策略:
- Oracle筛选:根据ROUGE分数保留高质量摘要。
- 弱监督筛选:用更强模型(Llama-3-8B)计算困惑度(perplexity)筛选。
- 结果:
- 模型崩溃现象:仅使用合成数据(无筛选)时,性能劣于原始数据。
- Oracle的优越性:仅需12.5%的筛选数据,模型性能即超越全量原始数据训练。
- 弱监督的局限性:验证器与生成器的相关性(θ角)影响筛选效果,部分情况下甚至不如随机筛选。
(注:专业术语如“Model Collapse”首次出现时保留英文并标注中文,后续直接用中文表述。)