这篇文档属于类型a,即报告一项原创性研究的学术论文。以下是根据ICLR 2025会议论文《Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model》撰写的学术报告:
标题:基于弱监督的强语言模型对齐优化方法WSPO:原理、实验与价值
作者与机构
本研究由上海交通大学的Wenhong Zhu、Zhiwei He、Xiaofeng Wang、Pengfei Liu、Rui Wang(通讯作者)团队完成,部分作者同时隶属于上海创新研究院(Shanghai Innovation Institute)。论文发表于ICLR 2025(International Conference on Learning Representations),代码已开源。
研究领域:人工智能自然语言处理(NLP)中的语言模型(Language Model, LM)对齐(Alignment)技术。
科学问题:现有对齐方法如RLHF(Reinforcement Learning from Human Feedback)和DPO(Direct Preference Optimization)依赖高质量人类偏好数据或复杂强化学习流程,存在计算成本高、泛化性受限的问题。
研究动机:受弱到强泛化(Weak-to-Strong Generalization)现象启发——即强模型通过弱模型生成的标签微调后可超越弱监督模型,团队提出:能否将弱模型的对齐行为迁移至强模型并实现性能增强?
目标:开发弱到强偏好优化(Weak-to-Strong Preference Optimization, WSPO)方法,通过弱模型对齐前后的分布差异指导强模型对齐,降低对显式奖励模型的依赖。
实验1:摘要长度控制(合成奖励任务)
- 对象:Qwen2-1.5B(弱模型)与Qwen2-7B(强模型)。
- 流程:
1. 对弱模型进行PPO对齐,学习硬编码的长度奖励函数(20≤长度≤30)。
2. 直接将弱模型对齐前后的分布差异作为监督信号,微调强模型。
- 结果:WSPO可使强模型生成长度合规的摘要,胜率(win rate)与PPO对齐模型相当(图2),且训练效率更高(仅需54分钟 vs PPO的95-120小时)。
实验2:单轮对话对齐(真实偏好数据)
- 数据:Anthropic Helpful & Harmless(HH)数据集。
- 对比方法:DPO(需显式偏好对)、WSPO(仅需弱模型对齐前后的单样本分布)。
- 发现:
- WSPO仅需弱模型在偏好数据上的分布变化,即可使强模型胜率从39.70提升至49.60(表1)。
- 超参数γ=0.1时,性能超越DPO(β=0.5),且训练稳定性更高(图3右)。
实验3:复杂综合评估
- 基准测试:MT-Bench、AlpacaEval 2、Arena-Hard。
- 结果:
- Qwen2-7B-instruct经WSPO对齐后,MT-Bench得分达7.33(表1)。
- 在MMLU、TruthfulQA等常识推理任务中,WSPO保留强模型原始知识(表2)。
科学价值:
- 提出首个通过弱模型分布差异实现强模型对齐的通用框架,理论证明LM本身可隐式充当奖励模型。
- 揭示了模型尺寸与对齐能力间的非线性关系,为“小模型指导大模型”提供新范式。
应用价值:
- 降低对齐成本:无需显式奖励模型或复杂RL流程,计算效率提升50倍(表14)。
- 兼容现有技术:可与RLHF、DPO等方法结合(附录F.2)。
局限与展望:未探索不同架构模型间的迁移效果,未来可研究对齐能力的可解释性增强。
附加价值:开源代码(Llama-Factory集成)和复现指南(附录B)推动社区应用,伦理声明中呼吁关注数据安全性。