分享自:

34.基于大语言模型引导强化学习的自主无人水面艇对接

期刊:Ocean EngineeringDOI:10.1016/j.oceaneng.2025.120608

本文向读者介绍一项发表于期刊 ocean engineering 卷323(2025年)的最新研究成果。该研究论文题目为“Autonomous Unmanned Surface Vehicle Docking Using Large Language Model Guide Reinforcement Learning”(使用大语言模型引导的强化学习实现无人水面艇自主对接)。这项研究由来自西交利物浦大学、河北科技大学、利物浦大学和布里斯托大学的研究团队共同完成,主要作者包括 Chenhang Xu, Yijie Chu 等。研究旨在解决无人水面艇自主对接这一关键技术挑战,通过创新性地将大语言模型与强化学习框架相结合,提出了一种名为 LLM4SAC 的新算法,显著提升了对接任务的成功率、效率以及对动态环境的适应性。

本研究的学术背景聚焦于机器人学、人工智能与海洋工程的交叉领域,特别是无人水面艇的自主导航与控制。无人水面艇在环境监测、海上监视和自主货物运输等领域应用日益广泛,其智能化导航系统的“最后一英里”——自主对接,对于回收、维护和充电至关重要。然而,传统控制方法(如最优控制、模糊控制)在存在风、流等扰动的动态环境中鲁棒性不足。而近年来兴起的深度强化学习方法,虽然能够处理复杂动态任务,但通常存在学习效率低下、对仿真环境数据依赖性强,以及难以将仿真中学习的策略有效迁移到真实世界等“仿真到现实的鸿沟”问题。针对这些挑战,本研究提出了核心研究目标:探索将大语言模型与强化学习结合,能否加速训练过程、提高效率,并确保学习到的算法能够无缝迁移到真实世界应用而不出现显著的性能下降。

研究的主要流程和方法论围绕 LLM4SAC 算法的设计、训练与验证展开,具体可分为以下几个核心部分:

1. 算法框架设计:Planner-Actor-Requester 范式 LLM4SAC 的核心是一个新颖的三组件框架,将大型语言模型的规划能力与 Soft Actor-Critic 强化学习算法的连续控制能力动态结合。 * 规划器:其核心是 LLM(本研究使用了 Gemma2 7B 和 Llama3 8B 模型)。规划器的职责是将当前环境观测(如 USV 相对于码头的位置、航向误差等)通过一个预设的提示词模板转换成文本描述,并请求 LLM 根据这些描述生成高级的、文本形式的动作指令。例如,LLM 可能输出“向前移动”或“向左转”。这些文本指令随后通过句子嵌入技术被编码成一个16维的向量。 * 执行器:这是一个基于 SAC 算法训练的策略网络。它的输入不仅包括原始的观测数据,还包括来自规划器的动作指令嵌入向量。执行器的任务是根据这些综合信息,输出精确的连续控制动作,即 USV 的线速度和角速度。这种设计使得 LLM 的高层语义指导能够直接影响底层的连续控制。 * 请求器:这是算法的关键创新组件,它是一个动态请求策略网络。在每个决策时刻,请求器根据当前观测状态,判断是否需要向 LLM 发起新的查询。如果判断为“需要”,则触发规划器生成新指令;如果判断为“不需要”,则沿用上一步的 LLM 指令嵌入向量。这种机制旨在最大化 LLM 指导的价值,同时最小化不必要的、计算成本高昂的 LLM 调用次数。为了鼓励高效使用 LLM,算法中还设计了一个惩罚项:如果请求 LLM 后得到的指令与上一步相同,则会施加一个负面奖励。

2. 环境建模与智能体设计 研究将 USV 自主对接任务形式化为一个马尔可夫决策过程。智能体的观测空间设计得非常全面,包括:通过深度相机和 YOLOv8n 模型估计的 USV 与码头入口之间的位置误差和距离;通过视觉惯性里程计计算的航向误差;上一时刻执行的动作;压缩至 64x64 像素的彩色图像;以及 LLM 反馈的嵌入向量。奖励函数则精心设计为多个分量的加权和,包括:鼓励靠近目标的距离奖励、惩罚航向偏差的航向奖励、在成功靠近时给予的终止奖励、碰撞惩罚以及为减少冗余 LLM 查询而设的 LLM 惩罚。这种多目标的奖励设计引导智能体学习安全、准确且高效的对接策略。

3. 训练与仿真实验流程 研究的训练阶段主要在虚拟仿真环境 Virtual RobotX 中进行。为了提升仿真环境的真实性和策略的鲁棒性,研究中动态模拟了风速、水流方向和强度等多种海洋环境扰动。训练流程如算法伪代码所示:智能体在环境中探索,请求器动态决定是否咨询 LLM,执行器根据综合信息产生动作,经验被存入回放缓冲区。随后,算法通过采样经验批量来同时更新 SAC 的执行器与评论家网络参数,以及请求器策略网络的参数。为了弥合仿真与现实的差距,研究还收集了真实湖泊中 USV 的50条轨迹数据,将其加入到仿真训练的回放缓冲区中,对策略进行微调,这有助于模型适应真实的传感器噪声和环境动态。

4. 对比实验与评估 为了全面评估 LLM4SAC 的性能,研究在仿真和真实世界两个层面进行了系统性的实验。 * 仿真实验:在 VRX 仿真环境中,将 LLM4SAC 与多种主流强化学习基线算法进行了对比,包括 DDPG、TD3、SAC 和 PPO。评估指标包括平均奖励收敛速度、最终性能、碰撞率等。此外,还特别比较了不同的 LLM 交互策略:固定规则触发、随机触发、始终触发以及 LLM4SAC 的动态请求策略,以评估其交互效率。 * 真实世界实验:在经过仿真训练和微调后,将训练好的 LLM4SAC 策略部署到一台实体 USV 上,在大学的湖泊中进行实地对接测试。USV 装备了 Intel Realsense D435i 相机、IMU 和车载计算单元。实验设置了从码头左侧、右侧和正面三个不同的初始接近场景,共进行了20次试验,以检验算法在真实光照、水面反光、风浪干扰等复杂条件下的性能。作为对比,也测试了纯 SAC 算法在真实环境中的表现。

研究的主要结果详实,有力地支撑了其结论:

在仿真实验中,LLM4SAC 展现了显著的学习效率和性能优势。如图表所示,LLM4SAC 在大约4万步时即开始收敛,速度快于 SAC 等其他基线算法。其最终达到的平均奖励也显著高于 DDPG、TD3 和 PPO。统计显著性检验的 p 值热图进一步证实,LLM4SAC 的性能提升具有统计显著性。尽管由于引入了 LLM 查询开销,其最终奖励与表现最好的 SAC 算法相比略有差距(胜率为0.45 vs 0.55),但 LLM4SAC 在训练效率(更快收敛)和样本效率(减少环境交互)方面优势明显。在对不同 LLM 交互策略的对比中,结果清晰地证明了动态请求策略的优越性:“始终请求”策略虽然成功率较高,但 LLM 调用频率极高,不实用;“随机请求”策略成功率可达100%,但调用次数仍然较多;“固定规则”策略调用次数最少,但成功率极低(21%)。而 LLM4SAC 在仅平均每回合调用 LLM 7.94 次的情况下,取得了100%的成功率,完美平衡了性能与交互成本。

真实世界实验的结果是本研究最具说服力的部分,直接回应了“仿真到现实鸿沟”的核心挑战。部署了 LLM4SAC 的 USV 在20次试验中成功对接13次,成功率达到65%。研究详细展示了成功对接的轨迹,USV 的航向误差和速度曲线均表现出平滑、收敛的良好特性。然而,纯 SAC 算法在10次真实试验中全部失败,凸显了其在面对真实世界图像变化、光照干扰和未建模动力学时的脆弱性。研究也分析了失败案例,主要归因于强烈阳光或镜头水珠反射导致的深度传感器读数错误,使得 USV 丢失目标并陷入原地旋转搜索。这些结果强有力地证明,LLM 提供的先验知识和上下文理解能力,确实增强了策略的适应性和鲁棒性,使其能够更好地处理仿真中未充分覆盖的真实世界不确定性。

基于以上结果,本研究得出结论:提出的 LLM4SAC 算法是一种有效且创新的方法,它通过整合大语言模型的高层语义指导与强化学习的自适应学习能力,成功地提高了 USV 自主对接的效率、成功率和从仿真到现实的迁移能力。动态请求策略的引入,使得系统能够智能地管理昂贵的 LLM 资源,在保证性能的同时控制了计算开销。

本研究的价值和亮点突出体现在以下几个方面:首先是方法论的创新性,这是首次将 LLM 集成到强化学习框架中用于解决 USV 自主对接任务,开创了“LLM 引导 RL”的新范式。其次是提出的动态请求策略,它为解决如何高效、经济地结合大模型与实时控制决策提供了一个巧妙的解决方案。第三是显著的实际贡献,通过仿真与实地实验相结合,实证了该方法在缩小“仿真到现实鸿沟”方面的有效性,为自主海事系统在动态不可预测环境中的部署提供了有前景的解决方案。

当然,研究也坦诚地指出了当前方法的局限性,例如实时应用中 LLM 的计算成本、对预训练模型质量和提示词设计的依赖、在极端恶劣天气下的传感器局限性等。这些也为未来的研究方向指明了道路,包括探索更高效的轻量化 LLM、融合声纳等多模态传感器数据,以及将方法扩展到多智能体协同对接等更复杂场景。

这项研究不仅为无人水面艇的自主对接问题提供了先进的解决方案,也为更广泛的具身智能和机器人控制领域探索大模型与强化学习的融合应用提供了宝贵的理论和实践参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com