在信息科学领域,尤其是强化学习(Reinforcement Learning, RL)与大型语言模型(Large Language Models, LLMs)交叉的研究前沿,一项名为LLMHRl(大型语言模型辅助的分层强化学习训练)的研究成果近期发表于Elsevier旗下的期刊*Information Sciences*(Volume 723, 2026)。该研究由山东大学机械、电子与信息工程学院以及山东省智能电子封装测试与应用关键技术重点实验室(威海)的李谦熙、庞宝*(通讯作者)、宋勇、付洪泽、徐庆阳、袁宪锋、徐小龙和张成进共同完成。论文在线发布于2025年9月17日,旨在解决传统强化学习在处理复杂、长序列决策任务时,特别是在环境奖励稀疏场景下所面临的性能瓶颈。
学术背景与研究目标 该研究的核心学术背景在于,传统强化学习虽在序列决策问题上取得了显著成功,但面对长序列任务时,由于巨大的状态与动作空间,其性能会显著下降。通常需要通过精心设计的奖励函数来弥补探索不足,但这本身是复杂且困难的。另一方面,分层强化学习(Hierarchical Reinforcement Learning, HRL)通过将任务分解为高层策略(负责长周期目标)和低层策略(负责具体技能执行),有效缩短了决策视野,在大动作空间任务中表现出优势。与此同时,大型语言模型展现出强大的推理能力和丰富的世界知识,已在机器人学等多个领域证明了其辅助决策的潜力。然而,基于LLM的智能体缺乏解决特定目标问题的专业知识,且在线实时调用成本高、延迟大。 鉴于此,本研究旨在融合两者优势,提出一个创新的框架:利用大型语言模型的先验知识和推理能力,来引导和加速分层强化学习中高层策略的学习,最终训练出一个在部署阶段无需依赖LLM、性能更优且响应迅速的智能体。具体目标是:1)提出LLM辅助HRL训练的方法,以提升在长序列任务中的表现;2)通过将高层动作分解为技能(Skill)和目标(Target)选项的组合,以应对动作空间过大的挑战。
研究方法与详细流程 LLMHRl的整体框架包含“教师”智能体和“学生”智能体,采用基于选项(Option)的分层强化学习范式。其工作流程可分解为以下几个关键步骤:
环境感知与文本转换:由于LLM仅能处理文本输入,研究首先利用视觉语言模型(Vision-Language Model, VLM,如GPT-4V或Qwen-VL)将智能体观察到的环境图像(如网格世界、桌面场景的RGB图像)转换为文本描述。该文本描述与当前任务的自然语言提示(包含任务规则和示例)共同构成LLM的输入提示文本。
教师智能体生成指导策略:教师智能体即大型语言模型(本研究使用ChatGPT-4 API)。LLM根据输入的提示文本,生成高层次的动作指令(例如,“拾取锤子”、“前往蓝色钥匙”)。为了从LLM的多次响应中获取更稳健的指导,研究对同一观察查询LLM N次。然后,通过一个硬编码的动作分解模块,将LLM输出的高层指令分解为“技能选项”和“目标选项”两部分。例如,“拾取红色方块”被分解为技能“拾取(Pick up)”和目标“红色方块”。研究者分别记录N次查询中技能选项和目标选项的分布,并计算其平均分布,记为教师指导策略 (\pi^L_s)(技能分布)和 (\pi^L_t)(目标分布)。LLM不直接与环境交互,仅作为策略建议的来源。
学生智能体决策与执行:学生智能体是待训练的分层强化学习模型。
训练过程与损失函数:训练的核心在于让学生的高层策略同时向教师指导策略学习,并从环境奖励中学习。损失函数设计为: [ L(s, t) = L{RL}(s) + L{RL}(t) + \lambda \left( \mathbb{E}_{o\sim\pi_s} \mathcal{D}(\pi^L_s(o) | \pi^Ss(o)) + \mathbb{E}{o\sim\pi_t} \mathcal{D}(\pi^L_t(o) | \pi^St(o)) \right) ] 其中,(L{RL}(s)) 和 (L_{RL}(t)) 是标准强化学习损失(本研究采用近端策略优化PPO算法),用于最大化环境回报的期望。(\mathcal{D}) 是衡量教师与学生策略分布差异的度量,本研究使用KL散度。关键参数 (\lambda) 是一个退火系数,用于控制教师指导的权重。在训练初期,(\lambda) 值较大,使学生策略紧密跟随LLM的指导,快速提升任务成功率;随着训练步数增加,(\lambda) 线性衰减至0,学生智能体逐渐过渡到完全依靠与环境交互进行学习,从而有望超越LLM的策略性能,并适应特定任务的细节。整个训练过程通过算法1进行了系统总结。
主要实验结果与分析 研究在三个不同的环境中对LLMHRl进行了全面评估,并对比了多种基线方法,包括LLMTeach、纯LLM决策、Inner Monologue、分层RL和标准PPO。
MiniGrid环境实验:
ManiSkill环境实验:
物理机器人验证:
LLM失败分析与计算成本:
研究结论与价值 本研究成功提出并验证了LLMHRl框架,其核心贡献在于:1)创造性地将大型语言模型作为“教师”,通过策略分布差异(KL散度)指导分层强化学习中“学生”高层策略的训练,实现了先验知识引导与自主环境学习的有效结合;2)提出将高层动作分解为技能与目标选项的创新方法,有效缓解了长序列任务中的动作空间爆炸问题。实验证明,该框架能快速学习LLM的策略,并通过环境交互进一步优化,最终在性能上超越LLM,同时在部署时摆脱对LLM的依赖,实现低延迟、低成本运行。 该研究的科学价值在于为强化学习与大型语言模型的融合提供了一种新颖且高效的范式,特别是在解决稀疏奖励、长视野决策难题方面提供了可行的技术路径。其应用价值显著,所训练出的智能体模型轻量、响应快,非常适合部署在计算资源有限、对实时性要求高的机器人及其他嵌入式系统上,推动具身智能和自主决策系统的发展。
研究亮点 1. 框架创新:首次提出并系统实现了“LLM作为教师指导HRL高层策略训练”的完整框架,并设计了教师指导权重退火机制,使智能体完成从“模仿学习”到“自主强化学习”的平滑过渡。 2. 方法创新:提出将高层策略动作空间分解为“技能”与“目标”两个正交维度,这是解决复杂任务中组合爆炸问题的一个关键设计,得到了消融实验的有力支持。 3. 全面验证:不仅在标准的MiniGrid和复杂的ManiSkill仿真环境中进行了多任务、多难度的充分验证,还成功在物理机器人上进行了现实世界测试,证明了方法的有效性和可迁移性。 4. 实用性强:明确区分了训练阶段(利用LLM)和部署阶段(仅用轻量级模型),在保持高性能的同时,彻底解决了LLM在线推理带来的高延迟和高成本问题,对实际应用具有重要意义。
其他有价值内容 论文还对相关研究进行了细致的对比(见表1),将LLMHRl与Eureka、Text2Reward、SayCan、GLIDER等现有LLM-RL或LLM-HRL框架在模型结构、适用任务长度和推理成本等方面进行了比较,清晰地定位了本工作的优势——在保持HRL处理长序列任务能力的同时,实现了低部署成本。此外,对LLM自身在决策任务中缺陷的详细分析,也为后续研究如何更好地结合LLM与RL提供了有价值的洞察。