分享自:

利用大型语言模型通过自对齐学习机器人技能奖励

期刊:Proceedings of the 41st International Conference on Machine Learning

这篇文档属于类型a,是一篇关于利用大型语言模型(LLM)通过自对齐方法学习机器人技能奖励函数的原创性研究论文。以下为详细学术报告:


一、作者及发表信息
本研究由Yuwei Zeng(新加坡国立大学)、Yao Mu(香港大学)和Lin Shao(新加坡国立大学,通讯作者)合作完成,发表于2024年国际机器学习会议(Proceedings of the 41st International Conference on Machine Learning, PMLR 235)。


二、学术背景
科学领域:本研究属于机器人学与强化学习的交叉领域,聚焦于奖励函数设计(reward function design)的自动化问题。
研究动机:传统强化学习中,奖励函数依赖专家经验设计或通过逆强化学习(Inverse Reinforcement Learning, IRL)从演示中学习,但前者耗时且需领域知识,后者依赖高质量专家数据。大型语言模型(LLM)虽能生成任务相关奖励函数,但其数值精度不足,需结合环境反馈进一步优化。
研究目标:提出一种无需人类干预的奖励函数自对齐框架,通过LLM生成初始奖励参数化方案,并利用执行反馈迭代优化奖励参数。


三、研究方法与流程
研究分为两个核心阶段:

  1. 奖励参数化提案(Reward Parameterization Proposal)

    • 输入:环境观测变量(如关节位置、末端执行器位姿、目标距离等)和任务描述(如“拾取立方体”)。
    • LLM引导流程
      1. 环境信息输入:向LLM提供观测变量字典和任务描述。
      2. 任务分解:通过思维链(Chain-of-Thought, CoT)提示,要求LLM将任务分解为子步骤(如“接近物体→抓取→运输”),并为每个步骤生成“应做”(dos)和“避免”(don’ts)列表。
      3. 奖励函数生成:LLM基于子步骤设计Python函数,将所有数值参数作为输入变量,避免硬编码(magic numbers)。例如,抓取任务的奖励可能包含“接近奖励”“抓取奖励”“碰撞惩罚”等加权项。
  2. 自对齐奖励更新(Self-Alignment Reward Update)

    • 双循环结构
      • 内循环:使用当前奖励函数训练策略(如SAC或PPO算法),采样轨迹并生成执行描述(如“末端执行器距离目标0.1米”)。
      • 外循环
      1. 排名生成:LLM基于执行描述对轨迹排序(如“更接近目标的轨迹优于远离的”),同时当前奖励函数也对相同轨迹排序。
      2. 不一致性最小化:通过贝叶斯更新(如Metropolis-Hastings算法)调整奖励参数,使两种排序差异最小化。若排名一致但策略未改进,则主动调整参数(如增大“抓取权重”)。
    • 关键创新
      • 排名信号替代数值预测:利用LLM的文本分类能力生成更鲁棒的排名监督信号。
      • 参数调整的保守性:仅接受不引入新不一致性的参数更新,避免奖励函数缺陷。

实验对象与规模
- 仿真环境:Maniskill2(6项任务)和Isaac Gym(3项任务),涵盖刚性/铰接物体操作、单/双臂控制等场景。
- 基线对比:包括专家设计的Oracle奖励、LLM零样本生成的固定奖励,以及Text2Reward和Eureka两种LLM奖励生成方法。


四、主要结果
1. 奖励有效性(H1验证)
- 在Maniskill2的6项任务中,自对齐奖励训练的策略性能接近或超越Oracle奖励。例如,“推椅子”任务的成功率从Oracle的35.34%提升至83.65%。
- 数据支持:图5显示所有任务的成功率曲线与Oracle奖励相当,且显著优于固定LLM奖励。

  1. 自对齐提升训练效率(H2验证)

    • 固定LLM奖励在“拾取立方体”等任务中成功率接近零,而自对齐更新后提升至73%(表3)。
    • 机制分析:LLM通过排名反馈引导奖励参数分阶段调整(如先优化“接近权重”,后优化“抓取权重”),形成隐式课程学习(图4, 图11)。
  2. 计算效率优势(H3验证)

    • 相比Eureka的进化式方法,自对齐方法在3项Isaac Gym任务中节省90%的GPT token消耗(表1),且成功率更高(如“开门”任务从0%提升至100%)。

五、结论与价值
科学价值
- 提出首个通过LLM排名信号实现奖励函数自对齐的框架,解决了LLM数值不精确的瓶颈。
- 证明了语言模型可作为无监督的“虚拟专家”,替代人类提供偏好反馈。

应用价值
- 降低机器人技能学习的专家依赖,适用于医疗、制造等需快速适配新任务的场景。
- 高效token使用方案为LLM在实时系统中的部署提供参考。


六、研究亮点
1. 方法创新:将奖励学习转化为排名一致性优化问题,结合LLM的语义理解与贝叶斯参数更新。
2. 工程贡献:设计自动化的执行描述生成与参数调整流程,支持多任务泛化。
3. 可复现性:开源代码及实验细节(如提示模板、超参数)在项目网站(https://sites.google.com/view/rewardselfalign)完整公开。


七、其他价值
- 伦理讨论:作者强调需确保奖励函数与社会价值观对齐,避免偏见或危险行为。
- 局限性:当前方法依赖最终状态评估,不适用于轨迹敏感任务(如S形行走);未来可结合视觉语言模型(VLM)增强反馈信息量。


(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com