分享自:

校准直接偏好优化用于语言模型对齐

期刊:38th conference on neural information processing systems (NeurIPS 2024)

基于校准直接偏好优化的大语言模型对齐方法研究

作者及发表信息

本研究由Teng Xiao(宾夕法尼亚州立大学人工智能研究实验室)、Yige Yuan(中国科学院大学)、Huaisheng Zhu(宾夕法尼亚州立大学)、Mingxiao Li(腾讯AI实验室)和Vasant G. Honavar(宾夕法尼亚州立大学)共同完成,发表于第38届神经信息处理系统会议(NeurIPS 2024)。

研究背景

在大型语言模型(LLMs)与人类偏好对齐的研究领域,基于对比的偏好优化方法(如DPO)通过优化策略相关的隐式奖励函数取得了显著成果。然而,这些方法主要关注两个响应之间隐式奖励的相对值,而忽略了其实际数值,导致与人类偏好的对齐效果欠佳。特别是在数学推理和编程等任务中,现有方法会导致选定响应似然持续下降的问题。

本研究针对这一局限性,提出了校准直接偏好优化(Calibrated Direct Preference Optimization, Cal-DPO)算法。该方法通过确保学习到的隐式奖励与真实奖励在尺度上可比,显著提升了与给定偏好的对齐效果。

研究方法

Cal-DPO的研究流程包含以下关键步骤:

  1. 问题建模

    • 输入提示x对应两个响应yw(优选)和yl(非优选),采样自参考策略πref
    • 偏好分布采用Bradley-Terry模型:p(yw ≻ yl|x) = σ(r(x,yw)-r(x,yl))
  2. 奖励校准机制

    • 定义隐式奖励函数:r̂θ(x,y) = log(πθ(y|x)/πref(y|x))
    • 引入校准损失函数确保隐式奖励与真实奖励尺度一致: lcal(θ;x,y) = (πθ(y|x)/πref(y|x) - r(x,y)/β)^2
    • 当仅能获取成对偏好数据时,设定r(x,yw)=1/2,r(x,yl)=-12
  3. 完整目标函数

    • 结合Bradley-Terry偏好损失和校准损失: Lcal-dpo = -logσ(hθ(x,yw,yl)) + λ[(r̂θ(x,yw)-1/2β)^2 + (r̂θ(x,yl)+1/2β)^2]
    • 其中hθ(x,yw,yl) = log(πθ(yw|x)/πref(yw|x)) - log(πθ(yl|x)/πref(yl|x))
  4. 理论分析框架

    • 从分布匹配角度证明Cal-DPO最小化反向KL散度的上界
    • 理论验证了方法的”负梯度”特性(降低不良响应概率)和”模式寻求”行为
  5. 实验验证

    • 在UltraFeedback、Reddit TL;DR、Anthropic-HH和IMDB四个基准数据集测试
    • 使用Zephyr-7B-SFT和Pythia-2.8B等基础模型
    • 对比DPO、IPO、SLIC、CPO等基线方法

主要研究结果

  1. 推理基准测试表现

    • 在UltraFeedback数据集上,Cal-DPO在IFEval和Math基准分别取得63.1%和12.5%的相对提升
    • MMLU-Pro、BBH、GPQA等基准也显示稳定改进(表2)
  2. 人类偏好对齐效果

    • Reddit TL;DR摘要任务:GPT-4评估胜率达75.61%(vs SFT)和59.37%(vs 选定响应)
    • Anthropic-HH对话生成:胜率73.52%(vs SFT)和64.61%(vs 选定响应)(表3)
  3. 控制生成任务

    • IMDB情感生成任务中,奖励分数提升至0.645(DPO为0.617),困惑度降至32.31(表4)
  4. 训练动态分析

    • 与DPO相比,Cal-DPO保持选定响应奖励持续上升(图1,3)
    • 拒绝响应奖励持续下降,但幅度更合理
  5. 方法普适性

    • 校准机制可推广至IPO(Cal-IPO)和SLIC(Cal-SLIC)
    • 在Anthropic-HH数据集上,Cal-IPO相对IPO提升3.2个百分点(图5)

研究结论与价值

本研究提出的Cal-DPO方法通过简单的校准机制,有效解决了现有对比偏好优化方法中隐式奖励尺度不一致的问题。理论分析表明该方法具有: 1. 保证收敛到最优策略的理论性质 2. “负梯度”特性(主动降低不良响应概率) 3. “模式寻求”行为(类似RLHF)

实际应用价值体现在: 1. 显著提升数学推理和复杂推理任务表现 2. 保持对人类偏好的更好对齐 3. 实现仅需单行代码修改的简便部署

研究亮点

  1. 方法创新性

    • 首次在语言模型对齐中引入奖励校准概念
    • 理论证明校准目标与反向KL散度最小化的等价关系
  2. 技术优势

    • 无需额外超参数
    • 与现有方法(DPO/IPO/SLIC)高度兼容
    • 计算开销几乎不变
  3. 实证发现

    • 揭示隐式奖励尺度失调是DPO在推理任务表现欠佳的主因
    • 验证校准机制对不同任务、不同基础方法的普适改进
  4. 理论贡献

    • 建立了对比学习与强化学习在语言模型对齐中的理论联系
    • 为理解不同偏好优化方法的行为差异提供新视角

其他有价值内容

  1. 开源实现:https://github.com/tengxiao1/cal-dpo
  2. 验证了β系数的影响(图4),建议取值1e-3到1e-2区间
  3. 在AlpacaEval 2.0基准上展示长度可控的改进(图2)
  4. 补充材料包含详细的理论证明和实验配置细节

本研究为大语言模型对齐提供了一种简单有效的新范式,其核心思想”通过校准实现尺度一致性”可能启发后续相关研究。特别是在需要精确控制响应质量的场景(如数学解题、代码生成等),Cal-DPO表现出明显优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com