33.基于大语言模型的强化学习样本轨迹选择方法

分享自：
33.基于大语言模型的强化学习样本轨迹选择方法

期刊:IEEE AccessDOI:10.1109/access.2024.3395457
这篇文档是由Jinbang Lai和Zhaoxiang Zang共同完成，发表于《IEEE Access》期刊，发布日期为2024年4月30日。该研究隶属于人工智能领域的交叉分支，具体聚焦于强化学习（Reinforcement Learning）与大语言模型（Large Language Model）的结合应用。强化学习作为一种智能体通过与环境交互来学习最优策略的框架，已在诸多领域展现出巨大潜力，但其一个关键瓶颈在于样本效率低下，即训练一个有效的策略往往需要海量的环境交互，成本高昂。另一方面，以GPT、BERT等为代表的大语言模型在自然语言处理任务上取得了革命性成功，其强大的知识储备与泛化能力引起了广泛关注。先前研究尝试将大语言模型与强化学习结合，通常是让大语言模型直接生成智能体的动作决策，或用于设计奖励函数。然而，这些方法未能充分发挥大语言模型的潜力，甚至可能因其模型复杂度过高而增加计算成本，或因奖励信号不稳定而影响学习过程的稳定。针对上述问题，本研究提出了一种新颖且直接的结合方式：利用大规模预训练语言模型进行轨迹选择，旨在直接从智能体与环境交互产生的大量轨迹中，筛选出对当前学习阶段更具信息量的优质轨迹，从而直接且高效地提升强化学习的样本效率。
本研究的主要创新工作流程围绕一个核心算法展开，该流程清晰地区分为三个主要阶段：轨迹收集、大语言模型评估与选择、以及智能体训练。
第一，轨迹收集阶段。研究人员首先让一个参数随机初始化的智能体在特定的强化学习环境中进行交互探索。此过程由interact (agent, environment)函数实现。智能体基于其当前策略（初期通常是随机策略）选择动作，环境对此动作作出响应，返回新的状态和即时奖励。这个过程持续多个时间步，直至一个回合结束，从而生成一条由状态、动作、奖励序列构成的轨迹。为了获得可供选择的样本，研究者在每次迭代中会收集多条这样的轨迹。
第二，大语言模型评估与选择阶段。这是本研究的核心创新环节。研究者并未让大语言模型直接干预智能体的决策过程，而是设计了一个精巧的提示（Prompt），引导大语言模型扮演“强化学习专家”的角色，对收集到的轨迹进行评估和比较。具体来说，askllm (llm, trajectories)函数会将一对轨迹（例如轨迹1和轨迹2）的描述信息填入预设的提示模板中。该提示模板的关键设计包括三点：一是角色设定，明确要求大语言模型作为“强化学习大师”进行思考，旨在激活其内部可能存在的相关领域知识；二是明确任务目标，即选择出“能让智能体更快收敛”的轨迹；三是简化输出格式，仅要求大语言模型用阿拉伯数字“1”或“2”作答，这使得接口简洁且易于程序化处理。通过这种方式，大语言模型能够运用其从海量文本中学习到的先验知识（例如，对任务目标的理解、对高效策略的常识性判断等），对两条轨迹的“质量”或“启发性”进行评估，并选出更优的一条。研究者认为，大语言模型之所以能做出有效选择，源于其能够理解环境背景，并能识别出那些对最终奖励有关键影响的特定时间步。
第三，智能体训练更新阶段。在获得由大语言模型评选出的“更优轨迹”后，train (agent, better_trajectory, trajectories)函数会利用这条轨迹以及其他轨迹（通常以批量形式）来更新智能体的策略参数。研究中采用了基于策略梯度的方法，利用轨迹中观察到的奖励来计算策略梯度，并使用Adam优化器来更新参数。其核心思想是，通过让智能体反复学习那些被大语言模型判定为更具指导意义的轨迹，可以引导其更快地朝着高回报区域探索和学习，从而加速整个训练过程的收敛。
为了验证所提出方法的有效性与泛化能力，研究团队在四个经典的强化学习基准环境中进行了系统性实验，覆盖了从简单控制到复杂博弈的不同场景。这些环境包括来自OpenAI Gym的Cartpole（控制倒立摆平衡）和Cliffroaming（悬崖漫步，避障任务），以及来自RLCard的Blackjack（21点）和Leduc-holdem（一种简化扑克游戏）。针对不同环境的特点，研究者选取了合适的基准算法进行对比：在状态空间较大或连续的Cartpole、Blackjack和Leduc-holdem任务中使用深度Q网络（DQN）算法；在状态空间离散且较小的Cliffroaming任务中使用经典的Q-learning算法。实验的核心评估指标是智能体在训练过程中获得的累积回报（Cumulative Return）。
实验结果显示，基于大语言模型轨迹选择的方法在所有测试环境中均显著超越了基准算法。具体而言，在Blackjack任务中，平均回报相比基准DQN提升了约26%；在Cliffroaming任务中，相比Q-learning提升了约30%；在Leduc-holdem任务中提升了15%。最为突出的成果体现在Cartpole任务中，该方法实现了高达79%的平均回报提升，甚至在训练到第20个回合时就达到了环境设定的最大回报值。这些数据有力地证明了该方法在提升智能体性能方面的有效性。除了绝对性能的提升，研究结果还表明该方法具有更好的样本效率（即用更少的环境交互步数达到相同或更高的性能）和长期训练稳定性。尽管在某些任务的初始阶段，基准算法学习速度可能略快，但结合大语言模型的方法在长期训练中表现更为稳定，这归因于大语言模型提供的轨迹评估为智能体学习提供了持续有效的指引。
为了进一步剖析所提方法中各个组成部分的作用，特别是验证大语言模型是否真正提供了有价值的筛选而不仅仅是随机选择，研究者进行了严格的消融实验。在消融实验中，他们移除了对大语言模型的依赖，改为从收集的轨迹中随机选择一条作为“更优轨迹”用于训练。实验结果表明，在Blackjack和Leduc-holdem任务中，完整方法的平均回报高于随机选择方法，且回报的方差（波动性）更低。在Cliffroaming任务中，随机选择方法在很长时间内未能收敛，而完整方法则在短期内实现了显著收敛。在Cartpole任务中，完整方法的性能更是远优于随机选择方法。这些对比结果一致且强有力地证明，大语言模型并非随机应答，而是确实理解环境和轨迹内容，并进行了有效的比较与筛选。其选择对于加速智能体收敛具有关键且不可替代的作用。
本研究的结论是，提出并验证了一种利用大规模预训练语言模型直接进行强化学习轨迹选择的新方法。该方法的核心价值在于，它以一种新颖、直接且高效的方式将大语言模型的强大知识库和推理能力应用于提升强化学习的样本效率，避免了先前研究中将大语言模型用作决策器或奖励设计器所带来的问题。实验在多个基准任务上取得的显著性能提升（最高达79%）证明了该方法的有效性和广泛的适应性。该方法设计简洁，具备“即插即用”的潜力，可方便地集成到大多数强化学习任务框架中。
本研究的亮点主要体现在以下几个方面：首先，在方法论上具有显著的创新性。这是首次有研究探索直接利用大语言模型来评估和选择强化学习轨迹，开辟了一个新的结合方向。其次，提出了一个精心设计且高效的提示工程方案，通过角色扮演、任务明确化和输出简化三个关键点，成功引导大语言模型发挥了“强化学习专家”的作用。再者，研究通过在多类型环境中全面、系统的基准测试和严谨的消融实验，为方法的有效性提供了坚实、可信的数据支撑，结论令人信服。
当然，研究也坦诚地指出了当前方法的局限性与未来展望。首先，研究中使用的具体大语言模型（基于ChatGPT）是非开源的，这在一定程度上限制了其在更广泛研究领域的可复现性和深入分析。其次，大语言模型的判断可能受其训练数据固有偏见的影响。此外，由于大语言模型存在上下文长度限制，该方法可能不适用于轨迹特别长的环境。最后，研究者也指出了潜在的风险，即过度依赖筛选出的“信息量高”的轨迹可能导致智能体过拟合于特定的动作-奖励序列，从而影响其在同一环境内新场景下的泛化能力，这是一个值得在未来工作中深入探究的问题。针对这些挑战，作者提出了未来的改进方向，包括探索使用开源大语言模型、深入分析大语言模型内部工作机制以更好理解其选择逻辑、以及通过技术手段扩展大语言模型的上下文处理能力等。总体而言，这项研究为强化学习与大语言模型的深度融合提供了一个富有前景的新范式，展现了该交叉领域巨大的研究潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问