12.利用大型语言模型引导强化学习的预训练探索

分享自：
12.利用大型语言模型引导强化学习的预训练探索

期刊:Proceedings of the 40th International Conference on Machine Learning
这篇文档属于类型a：一篇单篇原创研究的报告。以下是基于该文档内容撰写的详细学术报告。
报告：利用大型语言模型引导强化学习的探索阶段
一、 主要作者、所属机构及发表信息
本研究由*Yuqing Du*与*Olivia Watkins*作为共同第一作者领导，合作者包括Zihan Wang、Cédric Colas、Trevor Darrell、Pieter Abbeel、Abhishek Gupta及Jacob Andreas。作者来自多所顶尖研究机构：加州大学伯克利分校（University of California, Berkeley）电气工程与计算机科学系、华盛顿大学（University of Washington, Seattle）、麻省理工学院（Massachusetts Institute of Technology）计算机科学与人工智能实验室，以及法国国家信息与自动化研究所（Inria）的Flowers实验室。该研究以论文“Guiding Pretraining in Reinforcement Learning with Large Language Models”的形式，发表于2023年在夏威夷檀香山举办的第40届国际机器学习大会（Proceedings of the 40th International Conference on Machine Learning, PMLR 202）的会议论文集。
二、 研究的学术背景
本研究的核心科学领域是强化学习（Reinforcement Learning, RL），特别是其中与探索（exploration）和内在动机（Intrinsic Motivation）相关的方向。强化学习算法在密集、设计良好的奖励函数下表现优异，但在现实世界中，为复杂任务手工设计此类奖励函数成本高昂。因此，在缺乏外部奖励信号的预训练阶段，如何引导智能体进行有效的探索，使其学习到对下游任务有益的行为，成为一个关键挑战。
传统的内在动机方法，如基于新奇性（novelty）、好奇心（curiosity）的探索，通过奖励智能体访问新状态来驱动学习。然而，在复杂、开放的环境中，绝大多数新奇状态是“无意义”的（如树叶的晃动、电视的雪花噪声），与最终任务目标无关，导致探索效率低下。近期研究开始尝试利用语言作为更高级的状态抽象来指导探索，但依然可能驱使智能体探索大量人类看来不合理或无意义的行为组合。
与此同时，大型语言模型（Large Language Models, LLMs）在海量文本语料上训练后，编码了丰富的人类常识、文化惯例和世界知识。这些知识恰好可以用来判断哪些行为是“合理”且“可能有用”的。基于此，本研究旨在回答一个核心问题：能否利用预训练的LLMs中蕴含的人类常识知识，来塑造强化学习智能体在无外部奖励阶段的探索方向，使其专注于学习多样、符合常识且与环境上下文相关的行为，从而在下游任务上取得更好的性能？为此，研究者们提出了名为Exploring with Large Language Models（ELLM）的新方法。
三、 研究的详细工作流程
ELLM的整体工作流程可以概括为：在每一个时间步，利用LLM根据当前环境状态的文本描述，生成一系列“可能有用”的目标建议；然后，通过奖励智能体去实现这些LLM建议的目标，来引导其探索。具体包含以下几个关键步骤和组件：
环境与问题形式化：研究在两个复杂、部分可观测的模拟环境中进行验证：(1) Crafter：一个类似《我的世界》（Minecraft）的2D开放式生存游戏环境，包含资源收集、制作、战斗等多种行为，研究者特意修改了其动作空间，使其包含大量无意义的“动词+名词”组合（如“喝树”），增加了探索难度。(2) Housekeep：一个 embodied 机器人模拟环境，智能体需要在房间内整理放错位置的物品到符合常识的容器中。这两个环境在视角、动作空间和行为复杂度上形成互补。研究形式化为一个基于能力的内部动机（Competence-based Intrinsic Motivation, CB-IM）问题，即学习一个目标条件策略来最大化内部奖励。
目标生成（G）：这是ELLM的核心创新之一。在每个时间步，研究使用一个状态描述器将智能体的当前观测（如看到的物体、库存物品、生命状态）转换为一段自然语言文本描述。然后将这段描述，连同可用的动作列表（在Crafter中）或任务说明，一起作为提示（prompt）输入给一个预训练的自回归LLM（在Crafter中使用OpenAI Codex，在Housekeep中使用text-davinci-002 InstructGPT）。研究者探索了两种目标生成策略：(a) 开放式生成：直接让LLM生成文本形式的建议（如“砍树”、“攻击骷髅”），适用于开放世界。(b) 封闭式问答：将可能的目标（如“将麦片盒放入厨房橱柜吗？”）逐一询问LLM并获得“是/否”回答，适用于目标空间大但可枚举的场景。通过少量示例提示（few-shot prompting）来引导LLM生成格式一致且合理的建议。
奖励计算（R_int）：如何将LLM生成的抽象语言目标转化为可计算的奖励信号是另一个核心挑战。研究设计了一个基于语义相似度的奖励机制。首先，一个转移描述器将智能体执行动作后导致的状态转换（从观测o、动作a到新观测o’）描述为一句文本（如“你砍倒了一棵树”）。然后，使用一个预训练的句子编码模型（Sentence-BERT）将LLM生成的目标文本和转移描述文本分别编码为向量。最后，计算这两个向量之间的余弦相似度。当相似度超过一个预设阈值时，智能体获得与相似度成正比的奖励。由于LLM可能同时提出多个（k个）目标建议，智能体只要实现其中任何一个即可获得奖励，实际奖励取所有建议目标中相似度的最大值。此外，为了避免智能体反复尝试已实现的目标，研究引入了新颖性偏置，即在同一回合（episode）内，对已经实现过的目标建议进行过滤，不再重复奖励。
智能体训练与架构：研究采用深度Q网络（DQN）及其改进版（Double Q-learning, Dueling networks, multi-step learning）作为基础RL算法来训练智能体。智能体的策略网络接收两种输入：(a) 环境的84x84像素图像，(b) 状态描述文本经过Sentence-BERT编码后的嵌入向量。研究者比较了两种策略条件设置：(a) 目标条件策略：策略额外接收LLM所建议的k个目标的联合文本嵌入，即π(a | o, e(c_obs(o)), e(g1:k))。(b) 无目标条件策略：策略不接收具体目标信息，仅基于状态和观测来推断当前应该做什么，即π(a | o, e(c_obs(o)))。奖励rint在这两种设置下计算方式相同。
实验流程与分析：研究包含预训练和下游任务评估两个主要阶段。
预训练：所有方法（包括ELLM和多个基线）在无下游任务特定奖励的环境中进行训练。在Crafter中，评估指标是每个回合解锁的独特“成就”（如制作工作台、采矿）数量，这反映了探索的广度和质量。在Housekeep中，评估指标是智能体将物体正确放置到符合常识位置的成功率。
下游任务评估：预训练后，研究测试智能体在特定下游任务上的性能。研究对比了两种迁移策略：(i) 微调：直接使用下游任务奖励对预训练的策略进行微调。(ii) 引导探索：训练一个全新的策略，但在其ε-贪婪探索过程中，用一定比例（如50%）的概率从冻结的预训练策略中采样动作，以此利用预训练知识进行更有效的探索。
基线方法：为了全面评估ELLM，研究设置了多个强有力的基线：(1) Oracle：使用环境真实、合理的所有可能目标作为建议的上界。(2) Novelty：奖励智能体实现环境内所有可表达的目标（包括无意义目标），但带有新颖性偏置。(3) Uniform：均匀采样所有可表达目标进行奖励。(4) APT 和 RND：两种最先进的基于状态新奇性的内部动机算法。
消融研究与鲁棒性测试：研究还进行了多项深入分析，例如：对比目标条件与非目标条件策略的性能；测试使用学习到的（不完美）转移描述器替代完美描述器时ELLM的鲁棒性；分析LLM建议目标的质量（多样性、上下文敏感性、常识合理性）；以及验证新颖性偏置的关键作用。
四、 研究的主要结果
实验结果表明，ELLM在引导符合常识的探索方面取得了显著成功，并有效提升了下游任务性能。
LLM目标建议的质量分析：研究首先验证了假设H1。在Crafter环境中，对LLM（Codex）生成的大量建议进行人工分析发现，约64.9%的建议是“好”的——即符合上下文（当前环境允许）、符合常识且在游戏中可实现。约5%的建议因游戏物理限制不可实现（如“建房子”），但本身是合理的。剩余约30%的建议存在上下文不敏感（13.6%，如在没有树的地方建议“砍树”）或常识不敏感（16.4%，如“吃骷髅”）。重要的是，智能体实际获得奖励的行为中，66.5%是“好”的，说明奖励机制和探索过程有效地筛选并集中于合理行为。
预训练探索性能：在Crafter的预训练中，ELLM智能体平均每个回合能解锁约6个成就，显著优于所有仅关注新奇性的基线方法（APT、RND、Novelty，均低于3个成就），尽管仍低于使用全部真实目标的Oracle上限（约9个成就）。这证明了LLM的常识先验能有效将探索导向对人类有意义的行为区域，而非盲目的新奇性搜索。在Housekeep的预训练中，在LLM判断准确率较高的任务上，ELLM引导的智能体在预训练阶段就能达到很高的正确整理成功率，明显优于基线，表明其探索更直接地对齐了下游任务需求。
下游任务性能：研究结果支持了假设H2。
在Crafter的七个下游具体任务（如“放置工作台”、“制作木剑”、“采矿”）上，采用“引导探索”迁移策略的ELLM（无论是目标条件还是无目标条件版本）在大多数任务上表现最佳或极具竞争力。它是唯一在所有任务上均表现出非零性能的方法。研究还发现，直接微调预训练策略在所有方法（包括Oracle）上效果都较差，原因可能是预训练与微调阶段奖励的密度和规模不匹配导致策略遗忘原有技能。
在Housekeep的下游整理任务中，无论是采用“微调”还是“引导探索”策略，ELLM训练出的智能体在四个不同场景上的性能都达到或超过了所有基线方法。特别地，当LLM对正确位置判断准确率高时，ELLM的优势更加明显。研究也观察到，目标条件的ELLM策略在从预训练切换到下游任务微调时，有时会出现性能下降，可能是因为所有目标被编码为一个文本序列，当下游目标改变时，策略需要重新适应目标嵌入的变化。
鲁棒性与消融结果：
不完美的描述器：当使用在人工和合成数据上训练的、会产生错误的转移描述器替代完美描述器时，ELLM的性能虽然有所下降，但整体上依然保持有效，证明了方法对描述噪声具有一定的鲁棒性。
新颖性偏置的关键性：消融实验显示，如果移除“同一回合内不重复奖励已实现目标”的新颖性偏置，智能体会倾向于反复执行少数几个简单目标（如反复砍树），导致探索多样性急剧下降，验证了该设计对于驱动持续、广泛探索的必要性。
文本观测的价值：在所有方法中，为策略提供文本形式的状态描述嵌入，相比仅使用像素观测，都能带来一致的性能提升，凸显了语言抽象对理解和规划的重要性。
五、 研究的结论与价值
本研究得出结论：利用预训练大型语言模型中编码的人类常识知识来塑造强化学习的探索过程是可行且高效的。ELLM方法通过提示LLM生成上下文相关、符合常识的目标，并利用语义相似度奖励智能体实现这些目标，成功地将探索方向从“寻找任何新奇事物”扭转为“寻找可能有用的事物”。这种方法使智能体在预训练阶段获得了对下游任务更有利的行为覆盖，并在后续的任务学习中展现出更优或相当的样本效率与最终性能。
其科学价值在于，为结合世界知识与强化学习探索提供了一个新颖且通用的范式。它不再依赖于手工设计奖励函数、预先收集演示数据或定义任务特定的提示，而是直接利用大规模预训练获得的通用语言模型作为“常识知识库”和“目标生成器”。这推动了朝着能够利用人类背景知识进行更高效自主学习的智能体迈进了一步。
在应用价值上，ELLM为在复杂、开放且缺乏明确奖励的领域（如开放世界游戏、家用机器人自主学习整理、基于常识的交互任务）中训练智能体提供了有前景的思路。随着多模态大模型和视觉描述技术的进步，ELLM的框架有望扩展到更广泛的感知模态和现实世界应用中。
六、 研究的亮点
方法新颖性：首次提出并系统性地实现了利用预训练大语言模型（LLMs）作为内在目标生成器来引导RL探索。将LLM的常识推理能力与RL的试错学习能力创造性结合。
通用性与灵活性：方法不依赖于任务特定的奖励设计、演示数据或预训练的低层策略。它通过提示工程利用现成的LLM，并能适应两种不同的目标生成模式（开放式与封闭式）。
系统的实验验证：在两个具有不同特性的复杂环境（Crafter, Housekeep）中进行了全面实验，设置了包括Oracle在内的多种强基线，并通过详尽的消融研究（如新颖性偏置、描述器质量、策略条件方式）深入剖析了方法各个组件的作用和鲁棒性。
对迁移学习范式的深入探讨：不仅比较了性能，还深入分析了“微调”与“引导探索”两种迁移策略的优劣及适用场景，为未来研究如何更好地利用预训练策略提供了宝贵经验。
七、 其他有价值的讨论
研究在结尾部分也坦诚地讨论了ELLM的局限性及未来方向： * 局限性：(1) LLM的性能对提示词选择敏感，且可能因缺乏领域特定知识而产生错误建议（如未建议制作“木镐”），这可能阻碍关键技能的学习。(2) 需要状态和转移描述器，在真实世界中获取高质量描述器可能本身具有挑战性。(3) 频繁查询大型LLM可能带来时间和成本开销。 * 未来方向：研究者提出了多种改进思路，例如将ELLM奖励与其他内部奖励（如RND）结合、在提示中加入历史成就反馈使LLM动态了解环境、向提示中注入领域知识、或对LLM进行特定任务的微调。他们还展望，随着通用多模态生成模型的发展，类似ELLM的思路可以扩展到视觉目标或其他状态表示形式，成为一个融合人类背景知识与强化学习的更通用平台。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问