分享自:

大型语言模型与多样人类偏好的公平对齐:MaxMin-RLHF方法

期刊:ICML 2024 Workshop on Models of Human Feedback for AI Alignment

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


《maxmin-rlhf:面向多样化人类偏好的大语言模型公平对齐方法》是由匿名作者团队提交至ICML 2024 Workshop on Models of Human Feedback for AI Alignment的预印本研究成果。该研究聚焦人工智能领域的大语言模型(LLM)对齐问题,提出了一种基于社会选择理论(social choice theory)的改进方法,旨在解决传统强化学习人类反馈(RLHF, Reinforcement Learning from Human Feedback)框架中忽视人类偏好多样性的关键缺陷。

一、学术背景与研究目标

当前,RLHF通过单一奖励模型(single reward model)对齐语言模型与人类偏好,但其隐含的“单一真实偏好”假设在实践中存在严重局限。研究表明,人类偏好因社会文化、人口统计学特征(如种族、性别、年龄)存在显著差异(Aroyo et al., 2023b)。传统RLHF的聚合方式可能压制少数群体的偏好,导致社会偏见(见图1)。本研究首次通过理论证明单一奖励RLHF在多样化偏好下的对齐不可能性(Theorem 1),并提出maxmin-rlhf算法,结合期望最大化(EM, Expectation-Maximization)与最大最小社会福利目标,实现更公平的模型对齐。

二、研究流程与方法

研究分为理论证明、算法设计、实验验证三阶段:

  1. 理论证明阶段

    • 多样性量化:定义人类子群体偏好分布的总变差距离(total variation distance)作为多样性度量(Definition 1)。
    • 奖励模型失配分析:证明单一奖励模型的最优参数ϕ∗与子群体真实参数ϕ∗u的差距下界与多样性正相关(Lemma 1)。
    • 对齐不可能性定理:推导出对齐差距(align-gap)的下界(Theorem 1),表明高多样性或少数群体低权重(η(u)小)时,单一RLHF必然无法公平对齐。
  2. 算法设计

    • 混合奖励学习:通过EM算法(Algorithm 2)从偏好数据中学习多个子群体对应的奖励函数{rϕu},聚类过程通过硬分配(hard cluster assignment)最大化似然函数。
    • 最大最小对齐:基于平等主义原则(egalitarian rule),提出Algorithm 1迭代优化最劣势子群体的效用:
      • 每轮选择当前效用最低的子群体umin
      • 使用PPO(Proximal Policy Optimization)更新策略π以最大化frϕ∗_umin (π),同时约束与参考策略πref的KL散度。
  3. 实验验证

    • 小规模实验(GPT-2)
      • 数据集:IMDB影评数据模拟两类用户——多数群体(80%)偏好积极情感,少数群体(20%)偏好简洁性。
      • 结果:单一RLHF模型仅优化多数群体偏好(情感得分提升32%),而忽略少数群体需求(简洁性得分恶化15%);maxmin-rlhf则同时提升两项指标(见图4)。
    • 大规模实验(Tulu2-7B)
      • 数据集:GPT4-Alpaca生成的10k指令数据,模拟教育水平(P1a/P1b)、信息密度(P2a/P2b)、语气风格(P3a/P3b)三类多样性。
      • 结果:当群体比例倾斜(如6:1)时,单一奖励模型对少数群体的准确率下降45%,而maxmin-rlhf在所有测试集上保持稳定表现(表2-3)。

三、主要结果与结论

  1. 理论贡献

    • 首次证明单一奖励RLHF在多样化偏好下的对齐存在根本性局限(Theorem 1),其对齐差距下界与多样性系数和群体权重相关。
    • 提出混合奖励模型的EM学习框架,为多奖励RLHF提供可扩展的实现路径。
  2. 算法优势

    • maxmin-rlhf在GPT-2和Tulu2-7B上均实现社会公平性目标,少数群体效用平均提升40%(图5)。
    • 在机器人路径规划任务(图7)中验证了方法的通用性,表明其适用于广义强化学习场景。
  3. 社会意义

    • 为AI伦理中的“代表性偏差”问题提供量化分析工具,推动对齐技术从“多数主义”向“包容性设计”转变。

四、研究亮点与创新

  1. 理论突破:首次建立多样性偏好与对齐性能的定量关系,填补RLHF理论空白。
  2. 方法创新
    • 将社会选择理论与EM算法结合,实现无需显式群体标注的偏好解耦。
    • 提出基于PPO的最大最小优化策略,兼容现有RLHF工程框架。
  3. 跨领域验证:在自然语言生成与强化学习两类任务中验证普适性。

五、应用价值

该研究为以下场景提供解决方案:
- 多文化语境AI助手:避免输出内容偏向主流文化群体。
- 医疗/法律咨询系统:平衡专业性与可理解性需求。
- 政策模拟工具:量化评估决策对不同社会群体的影响差异。

未来工作可探索更高效的偏好聚类方法,以及动态调整群体权重η(u)的机制。本研究代码与数据已开源,为后续研究提供基准框架。


(注:因文档为预印本,部分实验细节如超参数设置未完全披露,实际应用需参考后续正式发表版本。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com