24.大型语言模型辅助分层强化学习的训练

分享自：
24.大型语言模型辅助分层强化学习的训练

期刊:information sciencesDOI:10.1016/j.ins.2025.122688
在信息科学领域，尤其是强化学习（Reinforcement Learning, RL）与大型语言模型（Large Language Models, LLMs）交叉的研究前沿，一项名为LLMHRl（大型语言模型辅助的分层强化学习训练）的研究成果近期发表于Elsevier旗下的期刊*Information Sciences*（Volume 723, 2026）。该研究由山东大学机械、电子与信息工程学院以及山东省智能电子封装测试与应用关键技术重点实验室（威海）的李谦熙、庞宝*（通讯作者）、宋勇、付洪泽、徐庆阳、袁宪锋、徐小龙和张成进共同完成。论文在线发布于2025年9月17日，旨在解决传统强化学习在处理复杂、长序列决策任务时，特别是在环境奖励稀疏场景下所面临的性能瓶颈。
学术背景与研究目标 该研究的核心学术背景在于，传统强化学习虽在序列决策问题上取得了显著成功，但面对长序列任务时，由于巨大的状态与动作空间，其性能会显著下降。通常需要通过精心设计的奖励函数来弥补探索不足，但这本身是复杂且困难的。另一方面，分层强化学习（Hierarchical Reinforcement Learning, HRL）通过将任务分解为高层策略（负责长周期目标）和低层策略（负责具体技能执行），有效缩短了决策视野，在大动作空间任务中表现出优势。与此同时，大型语言模型展现出强大的推理能力和丰富的世界知识，已在机器人学等多个领域证明了其辅助决策的潜力。然而，基于LLM的智能体缺乏解决特定目标问题的专业知识，且在线实时调用成本高、延迟大。 鉴于此，本研究旨在融合两者优势，提出一个创新的框架：利用大型语言模型的先验知识和推理能力，来引导和加速分层强化学习中高层策略的学习，最终训练出一个在部署阶段无需依赖LLM、性能更优且响应迅速的智能体。具体目标是：1）提出LLM辅助HRL训练的方法，以提升在长序列任务中的表现；2）通过将高层动作分解为技能（Skill）和目标（Target）选项的组合，以应对动作空间过大的挑战。
研究方法与详细流程 LLMHRl的整体框架包含“教师”智能体和“学生”智能体，采用基于选项（Option）的分层强化学习范式。其工作流程可分解为以下几个关键步骤：
环境感知与文本转换：由于LLM仅能处理文本输入，研究首先利用视觉语言模型（Vision-Language Model, VLM，如GPT-4V或Qwen-VL）将智能体观察到的环境图像（如网格世界、桌面场景的RGB图像）转换为文本描述。该文本描述与当前任务的自然语言提示（包含任务规则和示例）共同构成LLM的输入提示文本。
教师智能体生成指导策略：教师智能体即大型语言模型（本研究使用ChatGPT-4 API）。LLM根据输入的提示文本，生成高层次的动作指令（例如，“拾取锤子”、“前往蓝色钥匙”）。为了从LLM的多次响应中获取更稳健的指导，研究对同一观察查询LLM N次。然后，通过一个硬编码的动作分解模块，将LLM输出的高层指令分解为“技能选项”和“目标选项”两部分。例如，“拾取红色方块”被分解为技能“拾取（Pick up）”和目标“红色方块”。研究者分别记录N次查询中技能选项和目标选项的分布，并计算其平均分布，记为教师指导策略 (\pi^L_s)（技能分布）和 (\pi^L_t)（目标分布）。LLM不直接与环境交互，仅作为策略建议的来源。
学生智能体决策与执行：学生智能体是待训练的分层强化学习模型。
高层策略：学生的高层策略网络接收环境观察（原始图像或特征），并通过两个独立的全连接层（输出层使用Softmax）分别输出技能选项的概率分布 (\pi^S_s) 和目标选项的概率分布 (\pi^S_t)。这种将高层动作分解为技能与目标组合的设计，显著减少了高层动作空间的维度。例如，若有5个技能和10个目标，传统方法需要学习50个组合动作的分布，而分解方法只需学习5+10=15个选项的分布，极大地提升了学习效率。
低层策略：低层策略是一个基于人类专家知识或预训练RL模块硬编码的技能库（如“探索”、“前往”、“拾取”、“放置”、“敲击”等）。每个技能对应一个可执行的策略 (\pi_\omega)。当高层策略选定一个技能-目标对（如[“前往”， “蓝色门”]）后，控制权移交至对应的低层策略。低层策略根据当前观察和目标信息，生成一系列具体的底层动作（如机器人关节指令），与环境交互，直到该选项任务达到终止条件 (\beta_w) 或超过最大步数 (T_l)。
训练过程与损失函数：训练的核心在于让学生的高层策略同时向教师指导策略学习，并从环境奖励中学习。损失函数设计为： [ L(s, t) = L{RL}(s) + L{RL}(t) + \lambda \left( \mathbb{E}_{o\sim\pi_s} \mathcal{D}(\pi^L_s(o) | \pi^Ss(o)) + \mathbb{E}{o\sim\pi_t} \mathcal{D}(\pi^L_t(o) | \pi^St(o)) \right) ] 其中，(L{RL}(s)) 和 (L_{RL}(t)) 是标准强化学习损失（本研究采用近端策略优化PPO算法），用于最大化环境回报的期望。(\mathcal{D}) 是衡量教师与学生策略分布差异的度量，本研究使用KL散度。关键参数 (\lambda) 是一个退火系数，用于控制教师指导的权重。在训练初期，(\lambda) 值较大，使学生策略紧密跟随LLM的指导，快速提升任务成功率；随着训练步数增加，(\lambda) 线性衰减至0，学生智能体逐渐过渡到完全依靠与环境交互进行学习，从而有望超越LLM的策略性能，并适应特定任务的细节。整个训练过程通过算法1进行了系统总结。
主要实验结果与分析 研究在三个不同的环境中对LLMHRl进行了全面评估，并对比了多种基线方法，包括LLMTeach、纯LLM决策、Inner Monologue、分层RL和标准PPO。
MiniGrid环境实验：
任务设置：构建了四个难度递增的任务，从简单的双色钥匙配对到复杂的四门多层探索任务。
结果：实验数据（表4,5,6及图6,7）显示，在成功率、平均回报和收敛速度三个关键指标上，LLMHRl在大多数任务中均显著优于所有基线方法。特别是在最难的“四门到目标”任务中，LLMHRl取得了88.7%的成功率，而LLMTeach仅为40.5%，传统分层RL和PPO几乎无法学习。这证明了LLMHRl框架在解决长序列、稀疏奖励任务上的有效性。收敛速度方面，LLMHRl在中等难度任务上仅需2000-5000步即可达到80%成功率，而其他方法往往需要更久或无法收敛。
消融实验： 技能-目标分解的有效性：对比LLMHRl与未进行分解的版本（LLMHRl-NS）。结果显示，分解设计在所有任务上都带来了性能提升（表7，图8,9），验证了通过分解减少高层动作空间能有效提高探索效率和学习效果。
训练参数影响：对退火参数 (\lambda_0) 和终止步数 (i_1) 的消融研究表明（图10），按论文公式（7）计算的初始 (\lambda_0)（平衡RL损失与KL损失）能带来最优收敛速度。过早（(i_1=1000)）或过晚终止教师指导都会损害性能，说明动态调整指导权重的策略是必要的。
ManiSkill环境实验：
任务设置：在机器人仿真平台设计了三个桌面操作任务：单立方体抓放、三立方体抓放和锤子敲钉子任务，难度递增。
结果：LLMHRl在三个任务上分别取得了95%、77%和71%的最高成功率（表10，图14），平均回报也最高（表11，图15）。纯LLM方法因无法融入环境反馈而表现较差。Inner Monologue虽引入了环境语言反馈，但其调整能力有限，性能仍不及LLMHRl。传统RL方法在稀疏奖励下再次失败。这证明了LLMHRl在更复杂、需精确操作的具身AI任务中同样有效。
物理机器人验证：
设置与结果：在UR5机械臂和RealSense D435相机组成的真实平台上，执行“拾取方块放入对应颜色箱子”的任务。先在ManiSkill中模拟训练，再将模型迁移到实体机器人。在20次真实世界测试中，取得了16次成功。这证明了LLMHRl训练出的策略能够有效地从仿真迁移到现实，具备实际部署的潜力。
LLM失败分析与计算成本：
失败分析：论文对纯LLM作为高层策略的失败案例进行了详细分类（表13），包括观察抽象失败、格式输出失败、推理失败和低层执行失败。这解释了为何需要RL来精炼和超越LLM策略。
计算成本：延迟测试表明（表14），LLMHRl在训练阶段因需调用LLM产生约250毫秒延迟，但在部署阶段仅需轻量级学生网络，延迟低于10毫秒。相比之下，需要在线调用LLM的方法（如Inner Monologue）延迟高达25秒。这凸显了LLMHRl在实时性要求高的应用（如机器人控制）中的巨大优势。
研究结论与价值 本研究成功提出并验证了LLMHRl框架，其核心贡献在于：1）创造性地将大型语言模型作为“教师”，通过策略分布差异（KL散度）指导分层强化学习中“学生”高层策略的训练，实现了先验知识引导与自主环境学习的有效结合；2）提出将高层动作分解为技能与目标选项的创新方法，有效缓解了长序列任务中的动作空间爆炸问题。实验证明，该框架能快速学习LLM的策略，并通过环境交互进一步优化，最终在性能上超越LLM，同时在部署时摆脱对LLM的依赖，实现低延迟、低成本运行。 该研究的科学价值在于为强化学习与大型语言模型的融合提供了一种新颖且高效的范式，特别是在解决稀疏奖励、长视野决策难题方面提供了可行的技术路径。其应用价值显著，所训练出的智能体模型轻量、响应快，非常适合部署在计算资源有限、对实时性要求高的机器人及其他嵌入式系统上，推动具身智能和自主决策系统的发展。
研究亮点 1. 框架创新：首次提出并系统实现了“LLM作为教师指导HRL高层策略训练”的完整框架，并设计了教师指导权重退火机制，使智能体完成从“模仿学习”到“自主强化学习”的平滑过渡。 2. 方法创新：提出将高层策略动作空间分解为“技能”与“目标”两个正交维度，这是解决复杂任务中组合爆炸问题的一个关键设计，得到了消融实验的有力支持。 3. 全面验证：不仅在标准的MiniGrid和复杂的ManiSkill仿真环境中进行了多任务、多难度的充分验证，还成功在物理机器人上进行了现实世界测试，证明了方法的有效性和可迁移性。 4. 实用性强：明确区分了训练阶段（利用LLM）和部署阶段（仅用轻量级模型），在保持高性能的同时，彻底解决了LLM在线推理带来的高延迟和高成本问题，对实际应用具有重要意义。
其他有价值内容 论文还对相关研究进行了细致的对比（见表1），将LLMHRl与Eureka、Text2Reward、SayCan、GLIDER等现有LLM-RL或LLM-HRL框架在模型结构、适用任务长度和推理成本等方面进行了比较，清晰地定位了本工作的优势——在保持HRL处理长序列任务能力的同时，实现了低部署成本。此外，对LLM自身在决策任务中缺陷的详细分析，也为后续研究如何更好地结合LLM与RL提供了有价值的洞察。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问