本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容的学术报告:
主要作者及研究机构
本文的主要作者包括Qingxiu Dong、Li Dong、Xingxing Zhang、Zhifang Sui和Furu Wei。他们分别来自北京大学多媒体信息处理国家重点实验室、计算机学院以及微软研究院。该研究以论文形式发表在2025年的ICLR(International Conference on Learning Representations)会议上。
学术背景
该研究的主要科学领域为大语言模型(Large Language Models, LLMs)的对齐(alignment)与优化。近年来,LLMs在生成诚实、无害且有用的响应方面取得了显著进展,这主要得益于通过人类偏好数据进行模型对齐训练。然而,收集高质量的偏好数据是一个资源密集且需要创造力的过程,尤其是在LLMs持续改进的背景下。传统方法依赖于静态的、预先收集的偏好数据集,这些数据通常来自人类或更强的LLMs的标注,但随着LLMs的快速改进,收集大规模高质量偏好数据的难度和成本显著增加。
为了解决这一问题,本文提出了一种名为SynPo的自增强范式,利用合成偏好数据(synthetic preference data)进行模型对齐。SynPo通过迭代机制生成多样化的提示(prompts),并通过响应改进器(response improver)逐步优化模型响应。这一方法使LLMs能够自主学习其输出的生成奖励,从而减少对大规模提示和人类偏好标注的依赖。
研究流程
1. 合成提示生成
SynPo首先训练一个自提示生成器(self-prompt generator),用于创建大规模的合成提示。与以往需要更强LLMs和指令示例的方法不同,本文的生成器仅使用LLM本身和三个随机关键词作为输入。生成器通过从种子数据(seed data)中随机提取关键词,并结合噪声关键词来增强鲁棒性,最终生成多样化的用户指令。
合成偏好数据生成
为了生成合成提示的偏好对,SynPo使用初始模型生成的响应作为被拒绝的候选,并通过响应改进器将这些响应优化为被选择的候选。响应改进器的训练基于两个直观假设:(1)LLMs擅长识别文本之间的分布差距;(2)优化响应通常比从头生成高质量响应更容易。在每次迭代中,模型被训练为响应改进器,专注于识别当前模型输出与种子数据中黄金标准响应之间的差距。
合成偏好优化
SynPo通过迭代训练模型在合成偏好数据上进行优化。每次迭代中,模型生成合成提示的响应,并通过响应改进器优化这些响应,形成被选择和被拒绝的候选对。这些数据被整合到合成偏好数据集中,用于后续的偏好优化训练。优化过程采用SimPO(Simple Preference Optimization)目标函数,逐步提升模型的指令跟随能力和任务表现。
主要结果
1. 指令跟随能力的提升
经过四次SynPo迭代后,Llama3-8b和Mistral-7b在AlpacaEval 2.0和ArenaHard基准测试中表现出显著的指令跟随能力提升。在AlpacaEval 2.0上,长度控制胜率(length-controlled win rate)提高了超过22.1%,在ArenaHard上提高了22%至30%。
通用任务表现的改进
SynPo还显著提升了LLMs在多种任务上的通用表现。在Open LLM Leaderboard上,自增强模型的平均得分比监督微调(SFT)模型提高了3.2%至5.0%。具体而言,在ARC和TruthfulQA等任务上,SynPo分别实现了超过6%和16%的性能提升。
合成提示的多样性
SynPo生成的合成提示在多样性和质量上优于手动收集的提示和其他方法生成的提示。通过关键词采样和自提示生成器,SynPo能够生成大量多样化的提示,覆盖广泛的主题和用户意图。
结论
SynPo通过迭代训练在合成数据上进行模型对齐,显著提升了LLMs的指令跟随能力和任务表现。该方法不仅减少了对大规模人类偏好数据的依赖,还通过动态引导模型改进其输出,引入了生成奖励机制。SynPo的创新性在于其完全基于合成数据的训练过程,仅使用少量高质量的种子数据进行验证,从而在最小化监督的情况下实现了模型的持续改进。
研究亮点
1. 创新性方法:SynPo首次提出了一种完全基于合成数据的自增强范式,通过迭代优化模型输出,显著提升了LLMs的性能。 2. 多样性生成:通过关键词采样和自提示生成器,SynPo能够生成大量多样化的提示,覆盖广泛的主题和用户意图。 3. 高效性:SynPo在减少对大规模人类偏好数据依赖的同时,实现了模型的持续改进,具有较高的应用价值。
研究意义
SynPo为LLMs的对齐和优化提供了一种高效且可扩展的方法,特别是在高质量偏好数据稀缺的情况下。该方法不仅具有重要的科学价值,还为LLMs在实际应用中的性能提升提供了新的思路。通过合成数据生成和自增强机制,SynPo为LLMs的持续发展提供了重要的技术支持。