分享自:

基于弱模型对齐的强模型偏好优化方法 WSPO

期刊:ICLR

这篇文档属于类型a,即报告一项原创性研究的学术论文。以下是根据ICLR 2025会议论文《Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model》撰写的学术报告:


标题:基于弱监督的强语言模型对齐优化方法WSPO:原理、实验与价值

作者与机构
本研究由上海交通大学的Wenhong Zhu、Zhiwei He、Xiaofeng Wang、Pengfei Liu、Rui Wang(通讯作者)团队完成,部分作者同时隶属于上海创新研究院(Shanghai Innovation Institute)。论文发表于ICLR 2025(International Conference on Learning Representations),代码已开源。


一、学术背景

研究领域:人工智能自然语言处理(NLP)中的语言模型(Language Model, LM)对齐(Alignment)技术。
科学问题:现有对齐方法如RLHF(Reinforcement Learning from Human Feedback)和DPO(Direct Preference Optimization)依赖高质量人类偏好数据或复杂强化学习流程,存在计算成本高、泛化性受限的问题。
研究动机:受弱到强泛化(Weak-to-Strong Generalization)现象启发——即强模型通过弱模型生成的标签微调后可超越弱监督模型,团队提出:能否将弱模型的对齐行为迁移至强模型并实现性能增强?
目标:开发弱到强偏好优化(Weak-to-Strong Preference Optimization, WSPO)方法,通过弱模型对齐前后的分布差异指导强模型对齐,降低对显式奖励模型的依赖。


二、研究流程与方法

1. 理论框架构建

  • 核心定理:基于Plackett-Luce/Bradley-Terry模型,证明奖励函数可表示为对齐前后模型分布的对数比(Theorem 1)。
  • WSPO损失函数设计
    $$
    L{\text{wspo}} = \mathbb{E}{(x,y)\sim D} \left[ \frac{1}{|y|} \left| \gamma \log \frac{\pi{\theta}^{\text{strong}}(y|x)}{\pi{\text{ref}}^{\text{strong}}(y|x)} - \log \frac{\pi{\text{r}}^{\text{weak}}(y|x)}{\pi{\text{ref}}^{\text{weak}}(y|x)} \right|^2 \right]
    $$
    其中超参数γ控制强模型对齐强度与原始分布的平衡。

2. 实验验证

实验1:摘要长度控制(合成奖励任务)
- 对象:Qwen2-1.5B(弱模型)与Qwen2-7B(强模型)。
- 流程
1. 对弱模型进行PPO对齐,学习硬编码的长度奖励函数(20≤长度≤30)。
2. 直接将弱模型对齐前后的分布差异作为监督信号,微调强模型。
- 结果:WSPO可使强模型生成长度合规的摘要,胜率(win rate)与PPO对齐模型相当(图2),且训练效率更高(仅需54分钟 vs PPO的95-120小时)。

实验2:单轮对话对齐(真实偏好数据)
- 数据:Anthropic Helpful & Harmless(HH)数据集。
- 对比方法:DPO(需显式偏好对)、WSPO(仅需弱模型对齐前后的单样本分布)。
- 发现
- WSPO仅需弱模型在偏好数据上的分布变化,即可使强模型胜率从39.70提升至49.60(表1)。
- 超参数γ=0.1时,性能超越DPO(β=0.5),且训练稳定性更高(图3右)。

实验3:复杂综合评估
- 基准测试:MT-Bench、AlpacaEval 2、Arena-Hard。
- 结果
- Qwen2-7B-instruct经WSPO对齐后,MT-Bench得分达7.33(表1)。
- 在MMLU、TruthfulQA等常识推理任务中,WSPO保留强模型原始知识(表2)。


三、主要结果与逻辑链条

  1. 弱模型信号的有效性:弱模型(如1.5B参数)的对齐行为可被强模型(如7B)学习并放大(图4左)。
  2. 分布差异的普适性:即使使用被拒绝的偏好数据(含毒性内容),WSPO仍能有效对齐(附录C)。
  3. 模型尺寸的影响:强模型能突破弱模型的参数瓶颈,实现对齐能力增强(如Arena-Hard胜率从4.0提升至49.6)。
  4. 泛化性验证:在视觉语言任务(如RLHF-V数据集)中,WSPO同样适用(表10-11)。

四、结论与价值

科学价值
- 提出首个通过弱模型分布差异实现强模型对齐的通用框架,理论证明LM本身可隐式充当奖励模型。
- 揭示了模型尺寸与对齐能力间的非线性关系,为“小模型指导大模型”提供新范式。

应用价值
- 降低对齐成本:无需显式奖励模型或复杂RL流程,计算效率提升50倍(表14)。
- 兼容现有技术:可与RLHF、DPO等方法结合(附录F.2)。


五、研究亮点

  1. 方法创新性:首次将弱到强泛化理论扩展至模型对齐领域,提出分布差异驱动的损失函数。
  2. 性能突破:在三大基准测试中全面超越DPO,且避免了对高质量偏好数据的依赖。
  3. 广泛适用性:验证了从文本生成到多模态任务(如视觉问答)的跨领域适用性。

局限与展望:未探索不同架构模型间的迁移效果,未来可研究对齐能力的可解释性增强。


附加价值:开源代码(Llama-Factory集成)和复现指南(附录B)推动社区应用,伦理声明中呼吁关注数据安全性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com