30.利用大语言模型自增强反馈的在线偏好强化学习

分享自：
30.利用大语言模型自增强反馈的在线偏好强化学习

期刊:Proc. of the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025)
这篇文档属于类型a：关于一项原创研究的报告。
RL-SALLM-F：在线偏好强化学习与大语言模型自增强反馈
作者Songjun Tu、Jingbo Sun、Qichao Zhang、Xiangyuan Lan、Dongbin Zhao主要来自中国科学院自动化研究所（Institute of Automation, CASIA）、鹏程实验室（Peng Cheng Laboratory）和中国科学院大学人工智能学院（School of Artificial Intelligence, UCAS）。这项研究被提交并已获接收，将于2025年5月19日至23日在美国密歇根州底特律举行的第24届国际自主代理与多代理系统会议（The 24th International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2025）上发表。
研究的学术背景
该研究属于人工智能领域的强化学习（Reinforcement Learning， RL）子领域，具体聚焦于偏好强化学习（Preference-based RL， PbRL）。传统强化学习需要人工精心设计奖励函数，这一过程耗时耗力且依赖领域专业知识。偏好强化学习通过让人类或智能体比较两段轨迹（trajectory）的优劣来学习奖励函数，避免了直接设计奖励的难题，成为将人类偏好融入智能体学习的关键范式。
然而，现有的在线偏好强化学习方法面临一个核心困境：为了获得实时偏好反馈，需要一个能够持续与智能体交互的“评判者”。在实际应用中，频繁获取人类实时反馈成本高昂、难以实现。因此，大部分研究假设存在一个“脚本化教师”，它利用环境中预定义好的、私有的真实奖励来计算两条轨迹的累积奖励并给出偏好标签。这种方法虽然方便研究算法，但其依赖特权信息（即真实奖励函数）的本质与偏好强化学习的初衷——摆脱对人工奖励工程的依赖——相悖，也限制了其在无法获取特权信息的真实场景中的应用。
近年来，大语言模型（Large Language Models， LLMs）等大规模预训练模型展现出强大的推理、判别和规划能力，为替代人类或脚本化教师提供反馈带来了希望。已有研究尝试利用大语言模型设计奖励代码或比较图像-文本相似度来生成奖励，但这些方法或需要访问环境源代码（导致不切实际），或容易受到视觉噪声干扰、且单张图像难以反映动态过程信息。相比之下，偏好强化学习仅需通过比较轨迹对来学习奖励，它仅需一次完整的在线训练周期，不要求获取环境底层信息，且理论上能保证下游策略学习的次优性能边界。
尽管如此，直接将大语言模型用于在线偏好强化学习的反馈生成仍存在挑战。该研究识别出一个关键问题：“查询模糊性”。在在线训练的早期，智能体策略较差，产生的轨迹往往都是次优的，两条轨迹可能从不同方面（如距离目标的远近、轨迹平滑度）都表现不佳，使得大语言模型难以区分其相对优劣，导致反馈标签质量低下，进而阻碍奖励模型和策略的有效学习。
基于以上背景，本研究提出核心研究问题：除了利用大语言模型的判别能力，能否进一步利用其反思与规划能力，生成自增强的轨迹来促进在线偏好强化学习中更高效的奖励学习？研究的目标是开发一种名为RL-SALLM-F的方法，旨在不依赖任何在线特权信息或实时人类交互的情况下，解决查询模糊性问题，并完全用大语言模型驱动的反馈替代“脚本化教师”，为在线偏好强化学习建立一个实用、高效的新范式。
研究的详细工作流程
本研究提出并验证了一种名为“基于自增强大语言模型反馈的强化学习”的新方法。整个工作流程是一个在线交互式学习循环，包含以下几个核心步骤和对象：
环境交互与数据采集：研究对象为多个来自MetaWorld基准测试平台的机器人操作任务，如按钮按压（button press）、抽屉打开（drawer open）、门解锁（door unlock）等。智能体（一个SAC策略）在一个无外部奖励信号的环境中交互。它将与环境交互产生的状态-动作转移对存储在经验回放缓冲区中。每个任务的状态被抽象为工具中心点、操作对象、目标位置等的三维坐标文本描述。在训练的初期阶段，为了使探索轨迹多样化，算法会使用一种基于邻域距离的内在奖励进行无监督预训练。
轨迹采样与文本化：算法定期从经验回放缓冲区中采样出一对轨迹片段，每条片段包含固定长度（如10步）的状态序列。这些状态序列被按照预定义的格式转换成纯文本描述，作为大语言模型的输入。例如，一条轨迹会被表示为包含一系列时间步下tcp坐标、obj坐标等的JSON风格文本。
大语言模型反馈查询与双检机制：这是该研究的创新核心环节之一。采样得到的文本化轨迹对被送入大语言模型（研究中主要使用了成本效益较高的GPT-4o-mini）进行偏好判别查询。查询时，会向大语言模型提供任务描述（如“打开抽屉”）和两条轨迹的文本，要求其逐步分析并给出哪条轨迹能更好地完成任务目标的判断，输出标签为0、1或0.5（表示不确定或无明显差异）。 为了应对大语言模型输出可能存在的随机性，研究者引入了双检机制。具体做法是，将同一对轨迹的输入顺序交换后，再次提交给大语言模型进行查询，获得第二个标签。只有当两次查询的标签逻辑一致（即第一次判断A优于B，第二次判断B劣于A）时，才认为该反馈标签有效，并将该轨迹对及其标签存储到偏好数据集中。如果两次判断不一致，则认为大语言模型对此轨迹对存在“查询模糊性”，直接丢弃该样本。这种方法有效过滤了不可靠的反馈，提升了标签的可靠性。
大语言模型自增强轨迹生成：这是本研究的另一项核心创新。除了对现有轨迹进行判别，算法还会利用大语言模型的反思和规划能力。具体而言，对于刚刚采样且经过判别（假设认为轨迹A优于B）的轨迹对，算法会以其中较优的轨迹A为基础，向大语言模型提出新的查询：要求其生成一条基于相同初始状态、但能更好地达成任务目标的“想象”轨迹。大语言模型会输出一段符合格式的、新的状态序列文本。这条生成的轨迹不需要符合物理动力学约束，因为它仅用于后续的偏好比较学习，而非直接执行。生成后，算法会检查其格式和长度是否合规，若合规，则将其转换为状态轨迹，并与原较优轨迹A组成一个新的偏好对，其中生成轨迹被标记为更优，即标签为0（假设生成轨迹为第一项）。这个新生成的偏好对也被加入到偏好数据集中，作为高质量的训练数据来增强奖励模型的学习。
奖励模型学习：偏好数据集中现在包含两种数据：一是经过双检机制筛选后的、由大语言模型判断的在线采样轨迹对及其标签；二是由大语言模型生成的、自增强的想象轨迹对及其标签。研究者使用一个三层神经网络作为奖励模型，并采用集成学习（三个模型）以提高稳定性。奖励模型通过优化经典的Bradley-Terry模型下的交叉熵损失函数进行训练。其目标是学习一个奖励函数，使得对于给定的偏好标签，模型预测两条轨迹的偏好概率与标签尽可能一致。
策略学习与经验重标定：训练好的奖励模型被用来为经验回放缓冲区中的历史经验数据重新计算即时奖励（即进行奖励重标定）。然后，智能体策略（Actor）和价值函数（Critic）使用这些带有新奖励的数据，通过标准的离线策略强化学习算法（SAC）进行更新。 上述步骤2至6构成了一个不断迭代的循环：智能体与环境交互产生新数据；从数据中采样轨迹获取大语言模型反馈（包括判别和生成）；用反馈数据训练奖励模型；用新奖励模型重标定数据并更新策略。这个过程持续进行，直到达到预设的环境交互步数。
研究的主要结果
研究在八个MetaWorld任务上进行了系统实验，通过与PebBLE（使用“脚本化教师”反馈）和SAC（使用真实环境奖励）等基线方法的对比，以及详尽的消融分析和诊断性实验，验证了RL-SALLM-F的有效性。
整体性能表现：RL-SALLM-F在多个任务上取得了与依赖特权信息的PebBLE方法相当甚至更优的性能。特别是在按钮按压和抽屉打开任务中，其最终成功率与使用真实奖励的SAC方法持平。这强有力地证明，仅凭大语言模型提供的自增强反馈，完全可以在不接触任何环境私有奖励的情况下，成功掌握复杂的机器人操作技能，实现了用大语言模型驱动反馈替代“脚本化教师”的目标。
消融研究的验证：通过分别移除双检机制、移除在线采样反馈（仅用自增强生成数据）、移除自增强反馈（仅用双检后的判别反馈）进行对比实验，结果清晰地展示了每个模块的贡献。移除自增强反馈导致性能显著下降，在多个任务上成功率很低，这凸显了由大语言模型生成高质量想象轨迹对于促进奖励学习的关键作用。仅使用自增强反馈（无在线判别反馈）虽然在早期能带来快速提升，但后期不稳定。双检机制作为一个稳定器，在结合自增强反馈时能进一步提升性能。这些结果证实了研究设计工作流程的必要性和各模块间的协同效应。
习得奖励模型的分析：研究者可视化了不同方法学习到的奖励模型在专家轨迹和次优轨迹上的输出。结果表明，RL-SALLM-F学习到的奖励信号与任务进展（真实奖励）的契合度，高于其消融变体。例如，在一个次优轨迹（机械臂按下按钮后又移开）上，RL-SALLM-F的奖励在按钮被按下时升高，在机械臂移开时降低，这与任务逻辑一致。而某些消融变体则出现了不符合逻辑的奖励峰值。有趣的是，尽管RL-SALLM-F学到的奖励曲线与真实奖励的形态差异比PebBLE更大，但其策略性能却更好，研究者推测这可能是因为自增强数据带来了更稳定的奖励模型训练，或者环境预设的奖励函数本身并非最优。
反馈标签质量评估：量化分析显示，RL-SALLM-F在整个训练过程中，大语言模型判别标签（与“脚本化教师”的“真实”标签相比）的平均准确率约为70%。虽然不高，但通过双检机制（将准确率从约58%提升至65%）和引入自增强反馈（进一步提升至约72%）后，准确率得到了显著且逐步的提升。这验证了研究者的假设：通过自增强反馈提升策略和奖励模型，可以促使智能体采样到更多样、质量更高的轨迹，从而间接提升大语言模型判别的准确性，形成一个正向循环。同时，约34-38%的查询因双检不一致而被丢弃，这恰恰说明了“查询模糊性”问题的存在以及过滤机制的必要性。
生成轨迹质量评估：分析表明，大语言模型生成的“想象”轨迹，其基于环境真实奖励计算的累积奖励，不仅高于它自己判别为“差”的轨迹，也常常高于它判别为“好”的轨迹，甚至有时能与“脚本化教师”判别的“好”轨迹媲美。在RL-SALLM-F表现优异的任务（如按钮按压）中，生成轨迹的平均质量也相应更高。可视化案例显示，生成的轨迹能清晰地展示出符合任务目标的合理运动路径（如先靠近门把手再拉开）。这证明了大语言模型确实具备理解任务目标并规划出更优路径的能力，其生成的增强数据对奖励学习具有高价值。
大模型规模的影响：作为补充实验，研究对比了使用更强大的GPT-4o作为反馈模型的效果。结果表明，GPT-4o在策略性能、生成轨迹质量、判别标签准确率（提升至约80%）等方面均显著优于GPT-4o-mini，并且更倾向于在轨迹难分伯仲时输出“相等”标签（0.5），显得更为谨慎。然而，GPT-4o的查询成本（约20倍）和时间开销也远高于GPT-4o-mini。这说明了RL-SALLM-F框架在轻量级、低成本大语言模型上实现有效性的优势与潜力。
研究的结论与意义
本研究的结论是，所提出的RL-SALLM-F方法成功地为在线偏好强化学习开辟了一条不依赖于任何在线特权信息或实时人类反馈的新途径。通过将状态轨迹转化为文本，并利用大语言模型的判别和自增强生成能力，该方法能够有效缓解“查询模糊性”问题，利用高质量的想象轨迹驱动高效的奖励学习，最终训练出成功的策略。实验证明，该方法仅使用轻量级、低成本的大语言模型，即可达到与依赖环境内部奖励的基准方法相媲美的性能。
研究的价值体现在多个层面：科学价值在于，它首次系统性地提出并解决了在线偏好强化学习中大语言模型反馈的“查询模糊性”问题，并创新性地将大语言模型的反馈从单纯的“判别”扩展到了“判别+生成”的自增强模式，深化了大规模预训练模型与在线交互式强化学习结合的理论与实践。应用价值在于，该方法为在真实世界（如机器人学习）中部署在线偏好强化学习提供了一个切实可行的方案，因为它只需要对环境的文本描述，而无需访问其源代码或预设的奖励函数，也无需昂贵且不现实的人类实时标注，大大降低了应用门槛。
研究的亮点
问题定义的新颖性：首次明确识别并命名了在线偏好强化学习中使用大语言模型反馈时的“查询模糊性”问题，并围绕此问题展开系统性研究。
方法设计的创新性：提出了“双检机制”和“自增强轨迹生成”两个核心模块。双检机制简单有效地提高了反馈的可靠性；自增强生成则巧妙地利用了大语言模型的规划能力，为奖励模型提供了超越当前策略能力的高质量对比数据，是提升学习效率的关键。
技术路径的实用性：整个框架不依赖任何特权信息，仅需轻量级大语言模型（GPT-4o-mini）和环境的文本化描述，证明了其轻量化、低成本和易于部署的潜力，为实际应用铺平了道路。
验证的全面性：不仅展示了最终性能，还通过消融实验、奖励模型分析、标签质量诊断、生成轨迹评估等多角度深度剖析了方法的工作原理和各个组件的贡献，使得研究结论非常扎实。
其他有价值内容
研究还进行了额外的对比实验，例如在Point-Maze导航任务上测试了方法的泛化能力，结果显示RL-SALLM-F同样有效，且表现优于基线。此外，研究还讨论了方法的局限性与未来方向，例如大语言模型判别准确率仍有提升空间，以及当前方法直接处理图像输入存在挑战，未来可结合视觉语言模型或坐标标定技术进行扩展。这些内容为进一步的研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问