这篇文档属于类型a:一篇单篇原创研究的报告。以下是基于该文档内容撰写的详细学术报告。
报告:利用大型语言模型引导强化学习的探索阶段
一、 主要作者、所属机构及发表信息
本研究由*Yuqing Du*与*Olivia Watkins*作为共同第一作者领导,合作者包括Zihan Wang、Cédric Colas、Trevor Darrell、Pieter Abbeel、Abhishek Gupta及Jacob Andreas。作者来自多所顶尖研究机构:加州大学伯克利分校(University of California, Berkeley)电气工程与计算机科学系、华盛顿大学(University of Washington, Seattle)、麻省理工学院(Massachusetts Institute of Technology)计算机科学与人工智能实验室,以及法国国家信息与自动化研究所(Inria)的Flowers实验室。该研究以论文“Guiding Pretraining in Reinforcement Learning with Large Language Models”的形式,发表于2023年在夏威夷檀香山举办的第40届国际机器学习大会(Proceedings of the 40th International Conference on Machine Learning, PMLR 202)的会议论文集。
二、 研究的学术背景
本研究的核心科学领域是强化学习(Reinforcement Learning, RL),特别是其中与探索(exploration)和内在动机(Intrinsic Motivation)相关的方向。强化学习算法在密集、设计良好的奖励函数下表现优异,但在现实世界中,为复杂任务手工设计此类奖励函数成本高昂。因此,在缺乏外部奖励信号的预训练阶段,如何引导智能体进行有效的探索,使其学习到对下游任务有益的行为,成为一个关键挑战。
传统的内在动机方法,如基于新奇性(novelty)、好奇心(curiosity)的探索,通过奖励智能体访问新状态来驱动学习。然而,在复杂、开放的环境中,绝大多数新奇状态是“无意义”的(如树叶的晃动、电视的雪花噪声),与最终任务目标无关,导致探索效率低下。近期研究开始尝试利用语言作为更高级的状态抽象来指导探索,但依然可能驱使智能体探索大量人类看来不合理或无意义的行为组合。
与此同时,大型语言模型(Large Language Models, LLMs)在海量文本语料上训练后,编码了丰富的人类常识、文化惯例和世界知识。这些知识恰好可以用来判断哪些行为是“合理”且“可能有用”的。基于此,本研究旨在回答一个核心问题:能否利用预训练的LLMs中蕴含的人类常识知识,来塑造强化学习智能体在无外部奖励阶段的探索方向,使其专注于学习多样、符合常识且与环境上下文相关的行为,从而在下游任务上取得更好的性能?为此,研究者们提出了名为Exploring with Large Language Models(ELLM)的新方法。
三、 研究的详细工作流程
ELLM的整体工作流程可以概括为:在每一个时间步,利用LLM根据当前环境状态的文本描述,生成一系列“可能有用”的目标建议;然后,通过奖励智能体去实现这些LLM建议的目标,来引导其探索。具体包含以下几个关键步骤和组件:
环境与问题形式化:研究在两个复杂、部分可观测的模拟环境中进行验证:(1) Crafter:一个类似《我的世界》(Minecraft)的2D开放式生存游戏环境,包含资源收集、制作、战斗等多种行为,研究者特意修改了其动作空间,使其包含大量无意义的“动词+名词”组合(如“喝树”),增加了探索难度。(2) Housekeep:一个 embodied 机器人模拟环境,智能体需要在房间内整理放错位置的物品到符合常识的容器中。这两个环境在视角、动作空间和行为复杂度上形成互补。研究形式化为一个基于能力的内部动机(Competence-based Intrinsic Motivation, CB-IM)问题,即学习一个目标条件策略来最大化内部奖励。
目标生成(G):这是ELLM的核心创新之一。在每个时间步,研究使用一个状态描述器将智能体的当前观测(如看到的物体、库存物品、生命状态)转换为一段自然语言文本描述。然后将这段描述,连同可用的动作列表(在Crafter中)或任务说明,一起作为提示(prompt)输入给一个预训练的自回归LLM(在Crafter中使用OpenAI Codex,在Housekeep中使用text-davinci-002 InstructGPT)。研究者探索了两种目标生成策略:(a) 开放式生成:直接让LLM生成文本形式的建议(如“砍树”、“攻击骷髅”),适用于开放世界。(b) 封闭式问答:将可能的目标(如“将麦片盒放入厨房橱柜吗?”)逐一询问LLM并获得“是/否”回答,适用于目标空间大但可枚举的场景。通过少量示例提示(few-shot prompting)来引导LLM生成格式一致且合理的建议。
奖励计算(R_int):如何将LLM生成的抽象语言目标转化为可计算的奖励信号是另一个核心挑战。研究设计了一个基于语义相似度的奖励机制。首先,一个转移描述器将智能体执行动作后导致的状态转换(从观测o、动作a到新观测o’)描述为一句文本(如“你砍倒了一棵树”)。然后,使用一个预训练的句子编码模型(Sentence-BERT)将LLM生成的目标文本和转移描述文本分别编码为向量。最后,计算这两个向量之间的余弦相似度。当相似度超过一个预设阈值时,智能体获得与相似度成正比的奖励。由于LLM可能同时提出多个(k个)目标建议,智能体只要实现其中任何一个即可获得奖励,实际奖励取所有建议目标中相似度的最大值。此外,为了避免智能体反复尝试已实现的目标,研究引入了新颖性偏置,即在同一回合(episode)内,对已经实现过的目标建议进行过滤,不再重复奖励。
智能体训练与架构:研究采用深度Q网络(DQN)及其改进版(Double Q-learning, Dueling networks, multi-step learning)作为基础RL算法来训练智能体。智能体的策略网络接收两种输入:(a) 环境的84x84像素图像,(b) 状态描述文本经过Sentence-BERT编码后的嵌入向量。研究者比较了两种策略条件设置:(a) 目标条件策略:策略额外接收LLM所建议的k个目标的联合文本嵌入,即π(a | o, e(c_obs(o)), e(g1:k))。(b) 无目标条件策略:策略不接收具体目标信息,仅基于状态和观测来推断当前应该做什么,即π(a | o, e(c_obs(o)))。奖励rint在这两种设置下计算方式相同。
实验流程与分析:研究包含预训练和下游任务评估两个主要阶段。
四、 研究的主要结果
实验结果表明,ELLM在引导符合常识的探索方面取得了显著成功,并有效提升了下游任务性能。
LLM目标建议的质量分析:研究首先验证了假设H1。在Crafter环境中,对LLM(Codex)生成的大量建议进行人工分析发现,约64.9%的建议是“好”的——即符合上下文(当前环境允许)、符合常识且在游戏中可实现。约5%的建议因游戏物理限制不可实现(如“建房子”),但本身是合理的。剩余约30%的建议存在上下文不敏感(13.6%,如在没有树的地方建议“砍树”)或常识不敏感(16.4%,如“吃骷髅”)。重要的是,智能体实际获得奖励的行为中,66.5%是“好”的,说明奖励机制和探索过程有效地筛选并集中于合理行为。
预训练探索性能:在Crafter的预训练中,ELLM智能体平均每个回合能解锁约6个成就,显著优于所有仅关注新奇性的基线方法(APT、RND、Novelty,均低于3个成就),尽管仍低于使用全部真实目标的Oracle上限(约9个成就)。这证明了LLM的常识先验能有效将探索导向对人类有意义的行为区域,而非盲目的新奇性搜索。在Housekeep的预训练中,在LLM判断准确率较高的任务上,ELLM引导的智能体在预训练阶段就能达到很高的正确整理成功率,明显优于基线,表明其探索更直接地对齐了下游任务需求。
下游任务性能:研究结果支持了假设H2。
鲁棒性与消融结果:
五、 研究的结论与价值
本研究得出结论:利用预训练大型语言模型中编码的人类常识知识来塑造强化学习的探索过程是可行且高效的。ELLM方法通过提示LLM生成上下文相关、符合常识的目标,并利用语义相似度奖励智能体实现这些目标,成功地将探索方向从“寻找任何新奇事物”扭转为“寻找可能有用的事物”。这种方法使智能体在预训练阶段获得了对下游任务更有利的行为覆盖,并在后续的任务学习中展现出更优或相当的样本效率与最终性能。
其科学价值在于,为结合世界知识与强化学习探索提供了一个新颖且通用的范式。它不再依赖于手工设计奖励函数、预先收集演示数据或定义任务特定的提示,而是直接利用大规模预训练获得的通用语言模型作为“常识知识库”和“目标生成器”。这推动了朝着能够利用人类背景知识进行更高效自主学习的智能体迈进了一步。
在应用价值上,ELLM为在复杂、开放且缺乏明确奖励的领域(如开放世界游戏、家用机器人自主学习整理、基于常识的交互任务)中训练智能体提供了有前景的思路。随着多模态大模型和视觉描述技术的进步,ELLM的框架有望扩展到更广泛的感知模态和现实世界应用中。
六、 研究的亮点
七、 其他有价值的讨论
研究在结尾部分也坦诚地讨论了ELLM的局限性及未来方向: * 局限性:(1) LLM的性能对提示词选择敏感,且可能因缺乏领域特定知识而产生错误建议(如未建议制作“木镐”),这可能阻碍关键技能的学习。(2) 需要状态和转移描述器,在真实世界中获取高质量描述器可能本身具有挑战性。(3) 频繁查询大型LLM可能带来时间和成本开销。 * 未来方向:研究者提出了多种改进思路,例如将ELLM奖励与其他内部奖励(如RND)结合、在提示中加入历史成就反馈使LLM动态了解环境、向提示中注入领域知识、或对LLM进行特定任务的微调。他们还展望,随着通用多模态生成模型的发展,类似ELLM的思路可以扩展到视觉目标或其他状态表示形式,成为一个融合人类背景知识与强化学习的更通用平台。