32.基于大语言模型引导强化学习的无人艇自主靠泊

分享自：
32.基于大语言模型引导强化学习的无人艇自主靠泊

信息科学
人工智能
期刊:ocean engineeringDOI:10.1016/j.oceaneng.2025.120608
【点击此处】阅读全文、收藏及针对性提问
基于大语言模型引导强化学习的无人艇自主对接系统研究报告
本报告旨在向研究界介绍一项发表于 Ocean Engineering 期刊2025年第323卷的原创性研究成果，题为 “Autonomous Unmanned Surface Vehicle Docking using Large Language Model Guide Reinforcement Learning”。本研究由来自西安交通-利物浦大学先进技术学院、河北科技大学信息科学与工程学院、利物浦大学计算机科学系以及布里斯托大学民用、航空航天与设计工程学院的Chenhang Xu, Yijie Chu, Qizhong Gao, Ziniu Wu, Jia Wang, Yong Yue, Wojtczak Dominik 及 Xiaohui Zhu*（*通讯作者）共同完成。研究团队提出并验证了一种名为LLM4SAC的创新算法，该算法将大语言模型（Large Language Models, LLMs）与柔性演员-评论家（Soft Actor-Critic, SAC）强化学习框架相结合，旨在解决无人水面艇（Unmanned Surface Vehicles, USVs）在动态复杂海洋环境中自主对接所面临的挑战。
一、 学术背景 无人水面艇在环境监测、海事监视和自主货物运输等领域的应用日益广泛，其智能导航系统的最后一环——自主对接，是确保USV回收维护、充电及执行后续任务的关键步骤，被视为智能导航的“最后一公里”。传统控制方法（如最优控制、模糊控制）依赖于精确的USV动力学模型，在存在风、浪、流等非线性干扰的动态环境中鲁棒性不足。而基于强化学习（Reinforcement Learning, RL）的方法（如SAC、DDPG、TD3、PPO）虽然能处理复杂任务，但普遍存在样本效率低下、严重依赖模拟环境交互数据等问题，且从模拟环境到真实世界的迁移能力弱，难以应对传感器噪声、未建模动力学和动态视觉输入等现实挑战。为了克服这些难题，本研究旨在探索大语言模型与强化学习的结合。大语言模型具备强大的上下文理解和自适应决策能力，有望为RL智能体提供高层语义指导，减少试错学习，提升学习效率，并增强策略在现实条件下的鲁棒性与适应性。本研究的具体目标是开发一个能够有效桥接模拟与现实鸿沟、提高对接成功率和效率、同时降低计算与交互成本的自主对接系统。
二、 研究详细工作流程 本研究的工作流程主要包含系统框架设计、仿真环境训练与验证、以及真实世界部署测试三大阶段，并贯穿了数据收集与微调过程。
1. 系统框架设计（LLM4SAC算法） 研究核心是提出LLM4SAC算法，其架构包含三个关键组件：规划器（Planner）、执行器（Actor）和请求器（Requester），并与SAC框架深度融合。 * 研究对象与模型：以USV为控制对象，将其三维自由度（3-DOF）运动模型（前进速度u、横移速度v_m、偏航角速度θ）的操控问题建模为一个马尔可夫决策过程（Markov Decision Process, MDP）。使用Gemma2 7B或Llama3 8B作为规划器的大语言模型，因其计算效率较高。执行器和评论家网络则基于深度神经网络构建。 * 观测空间构建：在每个时间步t，智能体的观测值o_t是一个综合向量，包括：(1) 位置误差估计：通过英特尔RealSense D435i深度相机获取彩色和深度图像，使用基于YOLOv8n训练的目标检测模型识别对接平台中心，并计算USV与目标点的距离（xc, yc）。(2) 航向误差估计：结合视觉惯性里程计（Visual Inertial Odometry, VIO）获取的USV偏航角与目标点相对位置，计算航向误差e。(3) 前一时刻动作：上一时间步执行的动作[ut-1, θt-1]。(4) LLM反馈嵌入：将状态信息转换为文本提示（采用包含少量示例的提示模板），输入LLM获取高层动作指令（如“向前移动”、“左转”），再通过句子嵌入技术（SBERT）编码为16维向量ω。(5) 图像压缩：将彩色图像压缩至64×64分辨率以降低计算负载。 * 奖励函数设计：为引导USV成功对接，设计了多目标奖励函数，包括：基于距离的目标接近奖励、基于角度的航向误差奖励、成功接近目标时的终止奖励、发生碰撞时的惩罚奖励，以及为鼓励高效使用LLM而设置的重度查询惩罚奖励。总奖励为各分项的加权和，权重可根据环境条件调整以平衡不同目标。 * 动态请求策略：这是本研究的创新关键。请求器是一个可学习的策略网络π_request，它根据当前观测决定是否需向LLM规划器请求新的高层指令。若请求器决定查询（输出“请求”），则将观测转为文本提示送入LLM，获得新的动作指令并更新嵌入向量ω_t；若决定不查询，则复用上一时刻的嵌入向量ω_t-1。此机制旨在最小化与计算开销较大的LLM的交互频率，仅在遇到新情况或不确定状态时才寻求高层指导。 * 策略学习：执行器策略π_θ采用SAC算法进行训练，以处理连续动作空间。它接收当前观测和LLM嵌入向量（无论是新生成的还是复用的），输出连续控制动作[ut, θt]。同时，请求器策略π_request也通过强化学习进行优化，其目标是在获得有效LLM指导和避免冗余查询导致的惩罚之间取得平衡。整个训练过程在模拟环境中进行，并周期性使用从回放缓冲区采样的经验来更新所有网络参数。
2. 仿真环境训练与验证 * 实验平台与设置：训练和初步性能评估在虚拟机器人学（Virtual RobotX, VRX）仿真环境中进行。VRX基于Gazebo，能够高保真模拟海洋环境，包括可动态调整的风（0-2 m/s，方向0-360°）和水流条件（方向0-360°，波幅0-0.8 m，周期0-6 s），以增加环境的动态性和挑战性。 * 对比基准与实验：为了全面评估LLM4SAC的性能，研究设计了多组对比实验。(a) 与传统RL算法对比：将LLM4SAC与SAC、DDPG、TD3、PPO等主流RL算法在相同的VRX环境下进行训练和测试，比较其平均回报收敛速度、最终性能、计算时间以及任务成功率。(b) 与不同LLM交互策略对比：为了凸显动态请求策略的优势，将LLM4SAC与三种固定策略对比：1) 硬编码策略：仅在特定预设条件（如首次发现平台）下请求LLM；2) 随机策略：以50%固定概率请求LLM；3) 始终请求策略：每一步都依赖LLM。对比指标包括LLM请求频率、单次任务平均步数（任务长度）和成功率。 * 数据处理与分析：记录训练过程中平均回报随步数的变化曲线、最终稳定后的回报分布、成功轨迹等。通过统计检验（如计算胜率、p值热力图）来分析性能差异的显著性。
3. 真实世界数据收集、微调与部署测试 * 数据收集与仿真微调：为弥合模拟与现实的差距，研究团队在实际湖泊环境中（约200平方米，水深1.5-2.5米，存在约0.3 m/s的风和流）收集了50条真实的USV航行轨迹数据，包括观测、动作和奖励。将这些真实世界数据加入到模拟环境的训练回放缓冲区中，对已在纯仿真环境下训练好的策略进行微调。这一过程使策略能够接触到更接近现实的环境动态和传感器特性，提升了其泛化能力。 * 真实世界实验平台：用于测试的USV长约1.1米，配备双推进器、Intel NUC主处理器、STM32控制器、RealSense D435i相机/IMU以及通信设备。对接平台尺寸为1.5x1.5米。 * 实验设计与执行：在真实湖泊中，从对接平台的左侧、右侧和正前方三个不同起始方位进行对接任务测试，有效操作范围约10米（相机深度感知有效距离）。使用ROS作为中间件部署运行微调后的LLM4SAC算法。同时，作为对比，也将纯仿真训练表现优异的SAC算法直接部署到真实USV上进行测试。 * 结果记录：记录每次试验的成功/失败、轨迹路径、以及关键状态数据（如位置、航向误差、速度变化）。特别对失败案例进行了分析，以识别系统在真实环境中的脆弱环节。
三、 主要研究结果 1. 仿真环境中的效率与稳定性结果 * 收敛效率：如图表所示，LLM4SAC在约40,000步时开始收敛，早于SAC的约55,000步和TD3、DDPG的超过70,000步，而PPO在测试步数内未能有效收敛。这证明了LLM的引导显著加速了学习过程。 * 最终性能：在训练稳定后，LLM4SAC获得的平均回报显著高于DDPG、TD3和PPO。与SAC相比，LLM4SAC的最终回报峰值略低（分析认为这是由于LLM查询惩罚带来的轻微开销所致），但两者在任务成功率上接近（LLM4SAC在35次仿真试验中全部成功）。然而，在统计比较中，LLM4SAC相对于除SAC外的其他基线算法均表现出统计显著性优势（p < 0.05）。在计算时间上，LLM4SAC平均仅需3.73小时即可达到覆盖，远少于其他算法。 * 动态请求策略的有效性：与固定LLM交互策略的对比实验结果表明，LLM4Sac的请求策略最为高效。硬编码策略虽然LLM请求频率最低（平均3.57次/回合），但因其无法适应动态环境，成功率极低（21%），任务长度最长（80.23步）。始终请求策略成功率较高（82%），但付出了极高的LLM交互成本（平均48.23次/回合）。随机策略虽然达到了100%成功率，但请求频率（平均25.12次/回合）仍然较高。相比之下，LLM4SAC在保持100%成功率的同时，将平均LLM请求频率大幅降低至7.94次/回合，且任务长度（54.72步）与始终请求策略相近。这充分证明了其动态请求策略能够智能判断何时需要高层指导，在保证性能的前提下极大优化了计算资源使用。
2. 真实世界实验结果 * 总体成功率：在20次真实世界试验中，经过真实数据微调后的LLM4SAC算法取得了13次成功，成功率为65%。而作为对比的、仅在仿真训练的SAC算法，在10次试验中全部失败。这一结果直接验证了LLM4SAC在桥接“模拟-现实”鸿沟方面的有效性。 * 成功案例分析：报告展示了两类成功对接的轨迹和状态数据。在侧面接近对接案例中，USV轨迹平滑，航向误差逐渐趋近于零，线速度和角速度在接近终点时协调收敛至零，表明控制精准。在正面接近对接案例中，航向误差能迅速修正，线速度根据轨迹需要进行调整，最终平稳完成对接。 * 失败案例分析：报告详细分析了两个典型失败案例，均源于传感器在真实复杂环境下的局限性。一个案例因阳光强烈干扰导致深度相机测距严重失真，初始路径即发生偏离；另一个案例因镜头附着水珠反射引发类似问题。在初始错误引导后，USV丢失了目标视觉，随后进入低速旋转搜索状态（表现为高角速度、低线速度），无法重新捕获目标，导致任务失败。这些失败凸显了在极端环境条件下提升传感器鲁棒性和算法容错能力的必要性。
四、 研究结论与价值 本研究成功开发并验证了LLM4SAC算法，首次将大语言模型集成到强化学习框架中用于解决USV自主对接问题。结论表明： 1. LLM引导能有效提升RL效率：LLM提供的高层上下文感知指令，减少了传统RL对大量试错交互的依赖，加快了训练收敛速度。 2. 动态请求策略是关键创新：该策略实现了对LLM交互的智能管理，仅在必要时寻求指导，显著降低了计算成本和交互开销，使系统更实用。 3. 有效桥接了模拟与现实的差距：通过结合真实世界轨迹数据进行微调，并利用LLM的适应性和推理能力，学习到的策略能更好地泛化到存在传感器噪声、环境干扰的真实动态环境中。 因此，本研究不仅在科学上为“AI for Science”提供了LLM与RL在具身智能控制领域融合的新范式，证明了语义知识对提升决策效率的潜力；在应用上，也为自主海事系统，特别是动态复杂环境下的精确自主对接任务，提供了一个兼具高性能、高鲁棒性和较高计算效率的可行解决方案。
五、 研究亮点 1. 方法创新性：提出了首个用于USV自主对接的LLM引导RL框架（LLM4SAC），并创新性地引入了可学习的动态请求策略来优化LLM使用，这是本研究最核心的贡献。 2. 问题导向明确：精准聚焦于自主导航的“最后一公里”难题以及RL的“模拟-现实”迁移挑战，研究目标具有重要的理论和实践意义。 3. 验证全面性：不仅进行了充分的仿真对比实验（与传统RL算法、不同LLM交互策略），还完成了具有挑战性的真实世界湖试，提供了从仿真到现实的全链路验证，增强了研究成果的可信度。 4. 系统化工程实现：研究涵盖了从系统建模、观测处理（多传感器融合、目标检测）、算法设计、仿真训练到真实系统集成部署的完整流程，展示了较强的工程落地能力。
六、 其他有价值内容 研究团队已将该项目的完整实现与资源在GitHub上开源（https://github.com/ryanxu0428/llm4sac），这有利于促进学术共同体对该方向的后续研究、复现和改进。同时，论文也坦诚指出了当前方法的局限性，如LLM的实时计算开销、对预训练模型质量和提示设计的依赖、在多智能体或更复杂场景中扩展的挑战，以及对特定传感器在恶劣条件下性能不足的担忧，为未来工作指明了方向，例如探索更高效的LLM架构、集成声纳等多模态传感信息等。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问