基于校准直接偏好优化的大语言模型对齐方法研究
作者及发表信息
本研究由Teng Xiao(宾夕法尼亚州立大学人工智能研究实验室)、Yige Yuan(中国科学院大学)、Huaisheng Zhu(宾夕法尼亚州立大学)、Mingxiao Li(腾讯AI实验室)和Vasant G. Honavar(宾夕法尼亚州立大学)共同完成,发表于第38届神经信息处理系统会议(NeurIPS 2024)。
研究背景
在大型语言模型(LLMs)与人类偏好对齐的研究领域,基于对比的偏好优化方法(如DPO)通过优化策略相关的隐式奖励函数取得了显著成果。然而,这些方法主要关注两个响应之间隐式奖励的相对值,而忽略了其实际数值,导致与人类偏好的对齐效果欠佳。特别是在数学推理和编程等任务中,现有方法会导致选定响应似然持续下降的问题。
本研究针对这一局限性,提出了校准直接偏好优化(Calibrated Direct Preference Optimization, Cal-DPO)算法。该方法通过确保学习到的隐式奖励与真实奖励在尺度上可比,显著提升了与给定偏好的对齐效果。
研究方法
Cal-DPO的研究流程包含以下关键步骤:
问题建模:
- 输入提示x对应两个响应yw(优选)和yl(非优选),采样自参考策略πref
- 偏好分布采用Bradley-Terry模型:p(yw ≻ yl|x) = σ(r(x,yw)-r(x,yl))
奖励校准机制:
- 定义隐式奖励函数:r̂θ(x,y) = log(πθ(y|x)/πref(y|x))
- 引入校准损失函数确保隐式奖励与真实奖励尺度一致: lcal(θ;x,y) = (πθ(y|x)/πref(y|x) - r(x,y)/β)^2
- 当仅能获取成对偏好数据时,设定r(x,yw)=1/2,r(x,yl)=-1⁄2
完整目标函数:
- 结合Bradley-Terry偏好损失和校准损失: Lcal-dpo = -logσ(hθ(x,yw,yl)) + λ[(r̂θ(x,yw)-1/2β)^2 + (r̂θ(x,yl)+1/2β)^2]
- 其中hθ(x,yw,yl) = log(πθ(yw|x)/πref(yw|x)) - log(πθ(yl|x)/πref(yl|x))
理论分析框架:
- 从分布匹配角度证明Cal-DPO最小化反向KL散度的上界
- 理论验证了方法的”负梯度”特性(降低不良响应概率)和”模式寻求”行为
实验验证:
- 在UltraFeedback、Reddit TL;DR、Anthropic-HH和IMDB四个基准数据集测试
- 使用Zephyr-7B-SFT和Pythia-2.8B等基础模型
- 对比DPO、IPO、SLIC、CPO等基线方法
主要研究结果
推理基准测试表现:
- 在UltraFeedback数据集上,Cal-DPO在IFEval和Math基准分别取得63.1%和12.5%的相对提升
- MMLU-Pro、BBH、GPQA等基准也显示稳定改进(表2)
人类偏好对齐效果:
- Reddit TL;DR摘要任务:GPT-4评估胜率达75.61%(vs SFT)和59.37%(vs 选定响应)
- Anthropic-HH对话生成:胜率73.52%(vs SFT)和64.61%(vs 选定响应)(表3)
控制生成任务:
- IMDB情感生成任务中,奖励分数提升至0.645(DPO为0.617),困惑度降至32.31(表4)
训练动态分析:
- 与DPO相比,Cal-DPO保持选定响应奖励持续上升(图1,3)
- 拒绝响应奖励持续下降,但幅度更合理
方法普适性:
- 校准机制可推广至IPO(Cal-IPO)和SLIC(Cal-SLIC)
- 在Anthropic-HH数据集上,Cal-IPO相对IPO提升3.2个百分点(图5)
研究结论与价值
本研究提出的Cal-DPO方法通过简单的校准机制,有效解决了现有对比偏好优化方法中隐式奖励尺度不一致的问题。理论分析表明该方法具有: 1. 保证收敛到最优策略的理论性质 2. “负梯度”特性(主动降低不良响应概率) 3. “模式寻求”行为(类似RLHF)
实际应用价值体现在: 1. 显著提升数学推理和复杂推理任务表现 2. 保持对人类偏好的更好对齐 3. 实现仅需单行代码修改的简便部署
研究亮点
方法创新性:
- 首次在语言模型对齐中引入奖励校准概念
- 理论证明校准目标与反向KL散度最小化的等价关系
技术优势:
- 无需额外超参数
- 与现有方法(DPO/IPO/SLIC)高度兼容
- 计算开销几乎不变
实证发现:
- 揭示隐式奖励尺度失调是DPO在推理任务表现欠佳的主因
- 验证校准机制对不同任务、不同基础方法的普适改进
理论贡献:
- 建立了对比学习与强化学习在语言模型对齐中的理论联系
- 为理解不同偏好优化方法的行为差异提供新视角
其他有价值内容
- 开源实现:https://github.com/tengxiao1/cal-dpo
- 验证了β系数的影响(图4),建议取值1e-3到1e-2区间
- 在AlpacaEval 2.0基准上展示长度可控的改进(图2)
- 补充材料包含详细的理论证明和实验配置细节
本研究为大语言模型对齐提供了一种简单有效的新范式,其核心思想”通过校准实现尺度一致性”可能启发后续相关研究。特别是在需要精确控制响应质量的场景(如数学解题、代码生成等),Cal-DPO表现出明显优势。