基于新型强化学习框架的无人水面艇路径规划算法

分享自：
基于新型强化学习框架的无人水面艇路径规划算法

工程学
人工智能
期刊:Frontiers in Marine ScienceDOI:10.3389/fmars.2025.1641093
【点击此处】阅读全文、收藏及针对性提问
本研究的主要作者为Jianhui Mou、Bo Shi、Bo Wang、Chengcheng Yu、Yangwei Wang、Fusheng Zhong、Li Zheng、Jian Wang以及通讯作者Junjie Li。作者团队主要来自烟台大学机电汽车工程学院，合作单位包括华中科技大学机械科学与工程学院国家CAD支撑软件工程技术研究中心以及苏州同元软控信息技术有限公司。这项研究以学术论文形式发表于Frontiers in Marine Science期刊，于2025年8月1日在线出版，文章标题为《A Novel Reinforcement Learning Framework-Based Path Planning Algorithm for Unmanned Surface Vehicle》。
研究的学术背景聚焦于海洋工程与自主无人系统领域，具体针对无人水面艇（Unmanned Surface Vehicle， USV） 在海洋观测任务中的路径规划问题。USV因其出色的续航、导航稳定性和机动性，已广泛用于收集高分辨率海气观测数据、海洋数据采集以及海洋生态系统监测等任务。然而，在复杂的海洋环境中，USV的路径规划面临几个固有难题：高度依赖环境信息、算法收敛时间长以及生成的路径质量（如安全性、平滑度）较低。传统的路径规划算法（如A*算法、人工势场法（Artificial Potential Field, APF））以及智能优化算法（如粒子群算法、遗传算法）在处理复杂或缺乏先验信息的环境时，容易陷入局部最优、计算量大或对历史数据依赖性强。尽管以深度Q网络（Deep Q-Network, DQN）为代表的深度强化学习（Deep Reinforcement Learning, DRL）方法为解决高维状态空间问题提供了潜力，但其直接应用于USV路径规划仍存在学习效率随环境复杂度上升而下降、安全性欠佳（如过于贴近障碍物边缘）以及规划路径平滑度低等问题。因此，本研究旨在解决上述挑战，提出一种新的路径规划算法框架，以在复杂环境中为USV寻找安全、高效、平滑的最优路径。具体研究目标包括：建立一种结合碰撞风险感知的综合性奖励函数，设计一种能加速学习收敛并提升路径质量的算法框架，并最终通过仿真实验验证其有效性。
研究的详细工作流程主要包括以下几个核心步骤：
首先，研究团队将USV的路径规划问题形式化为一个马尔可夫决策过程（Markov Decision Process, MDP）。他们构建了一个60米×60米的二维栅格地图环境，其中黑色栅格代表障碍物，白色栅格代表可航行区域，每个栅格为1米见方。状态空间S定义为USV的坐标位置(x, y)以及其到目标点的欧氏距离d。动作空间A定义为USV在栅格地图中可以采取的8个离散移动方向：上、下、左、右以及四个对角线方向。状态转移概率在此确定的栅格环境中设为1，即执行选定动作后，下一状态是确定的。
其次，是算法框架的核心设计，即提出人工势场启发式奖励平均深度Q网络（APF-RADQN） 框架。该框架包含几个创新部分： 1. 综合性奖励函数设计：为了解决传统强化学习中奖励稀疏的问题，并引导USV安全、高效地到达目标，研究者设计了一个包含四项的复合奖励函数Rt = Rt1 + Rt2 + Rt3 + Rt4。其中，Rt1是目标奖励（到达目标点附近给予高额正奖励）；Rt2是障碍物惩罚（当USV与最近障碍物的距离小于安全距离时给予负奖励）；Rt3是边界惩罚（防止USV驶出地图边界）；最关键的创新是Rt4，即人工势场启发式奖励。该奖励通过计算USV在当前状态下所受APF合力方向与其所选择动作方向之间的向量点积来获得。当动作方向与APF指引方向一致时获得正奖励，反之则获得负奖励或奖励减少。这使得APF算法提供的连续空间梯度信息被融入强化学习的离散决策过程中，为智能体提供了密集且具有引导性的学习信号。 2. 网络结构与奖励平均策略：算法采用标准的DQN双网络（评估网络和目标网络）架构。评估网络用于根据当前状态输出各动作的Q值，目标网络用于计算稳定的目标Q值。本研究的创新点在于引入了奖励平均策略（Reward-Averaging Strategy）。具体而言，在计算用于更新网络的目标Q值时，使用当前奖励减去历史奖励的均值（R - Rm），而不是直接使用原始奖励R。这一策略旨在减少奖励信号的方差，平衡偶然探索带来的误差，从而理论上能加速学习过程的收敛并提高稳定性。历史奖励均值Rm会随着训练过程自适应更新。网络采用全连接层构建，使用ReLU激活函数，并采用Adam优化器进行参数更新。 3. 路径平滑处理：由于APF-RADQN算法在离散栅格上规划出的路径是由一系列转折点组成的折线，不适合USV的实际连续航行。因此，研究者在获得最优策略生成的离散路径点后，应用贝塞尔曲线（Bezier Curve） 进行平滑处理。文中采用了多个二阶贝塞尔曲线串联的方式对路径进行平滑，确保了最终输出路径的连续性和可行性，更符合USV的运动学特性。 整个算法的执行流程遵循典型的深度强化学习训练循环：初始化网络参数与环境；在每个训练周期（episode）中，USV（智能体）根据ε-greedy策略选择动作并与环境交互，获得奖励和下一个状态，将经验数据（s, a, r, s‘）存入经验回放池；定期从回放池中采样小批量数据，使用包含奖励平均策略的公式计算目标Q值和损失函数，通过反向传播更新评估网络参数；并定期将评估网络参数复制到目标网络。经过充分训练后，保存网络参数并根据最优策略生成路径，最后进行贝塞尔曲线平滑。
研究的主要结果通过在三幅不同复杂度的60x60栅格地图环境（环境A、B、C）中进行仿真实验获得，并将APF-RADQN算法与三种基线算法（传统APF算法、A*算法、标准DQN算法）进行了全面对比。评估的关键性能指标（KPI）包括平均路径长度、路径拐角数量以及算法推断时间。
在环境A（起点与终点距离较远，障碍物分布相对简单）中，所有四种算法都能找到无碰撞路径。结果显示，APF算法生成的路径步数最多，且在初始阶段更贴近障碍物；A*算法虽然找到了较短路径，但在穿过障碍物区域时安全距离保持最差，碰撞风险最高；标准DQN算法与APF-RADQN算法生成的路径性质相似，但APF-RADQN的路径更平滑。从具体数据看，APF-RADQN的平均路径长度（96.55米）和拐角数（6个）均优于DQN（99.28米，7个拐角），更显著优于APF（102.11米，10个拐角）和A*（100.98米，9个拐角）。
在环境B（起点与终点距离较近，障碍物呈对称分布）中，所有算法同样成功规划出路径。APF算法因担心陷入零势能点而设置了较大的斥力范围，导致其路径最长（82.04米）。A*算法的路径平滑度最差，且同样存在贴近障碍物的问题。DQN算法在目标点附近产生了不必要的转向。而APF-RADQN算法在路径长度（75.04米）和平滑度（4个拐角）上表现最佳。
在环境C（最为复杂，起点被障碍物“陷阱”包围，需要初始阶段远离目标点迂回）中，算法的高层推理（Interface）能力受到严峻考验。APF算法由于势场复杂，其路径出现了大量无意义的转弯。A*算法因其搜索机制的局限性，在初始阶段就陷入了“陷阱”，最终规划出的路径最长（83.38米）。标准DQN和APF-RADQN都展现出了出色的高层推理能力，成功找到了迂回路径。然而，DQN算法的路径拐角数（4个）仍多于APF-RADQN（3个），且路径长度（78.21米）也长于APF-RADQN（74.48米）。
在收敛性分析方面，研究绘制了DQN和APF-RADQN在三种环境下的训练回报曲线。结果显示，在所有环境中，APF-RADQN算法达到稳定回报值所需的训练步数均少于标准DQN算法。具体而言，在环境A、B、C中，所需迭代步数分别减少了约7.2%、13.8%和10.1%。这证实了奖励平均策略和APF启发式奖励的有效性，它们提高了算法的学习效率和全局搜索能力，加速了收敛过程。
本研究的结论是：针对USV海洋观测任务中的路径规划问题，成功提出并验证了一种基于APF-RADQN框架的新算法。该算法通过设计融合APF信息的综合奖励函数，有效引导USV在避开障碍物的同时快速接近目标；通过引入奖励平均策略优化了网络训练过程，提升了算法的收敛速度和求解能力；并利用贝塞尔曲线对路径进行了后处理平滑。仿真实验结果表明，与DQN、APF和A*等对比算法相比，APF-RADQN算法在多种复杂环境下均能规划出更短、更平滑且更安全的路径，显著提升了USV的导航安全性和海洋观测任务的执行效率。
本研究的科学价值与应用价值在于：在方法学上，创造性地将传统APF算法的连续势场梯度信息与深度强化学习的离散决策能力相结合，并通过奖励平均策略改进了DRL的训练稳定性，为复杂环境下的移动机器人路径规划提供了一种新的混合式解决方案框架。在应用层面，该研究直接针对USV在实际海洋观测任务中面临的关键技术挑战，所提出的算法有望提升无人艇在未知或复杂海域的自主作业能力和安全性，具有明确的工程应用前景。
本研究的亮点和创新之处主要体现在以下几个方面： 1. 新颖的混合奖励函数：首次将人工势场力方向与智能体动作方向的向量点积作为连续奖励信号，巧妙地将物理模型的引导能力嵌入到数据驱动的强化学习模型中，解决了奖励稀疏性问题，并显式地编码了碰撞风险感知。 2. 创新的算法框架：提出了APF-RADQN框架，其中集成了奖励平均策略。这一策略通过动态调整奖励基准来降低方差，是一种简单而有效的网络训练优化技术，为改进DRL算法的收敛性能提供了新思路。 3. 完整的工程化流程：研究不仅关注算法的决策性能，还考虑了实际应用需求，通过引入贝塞尔曲线平滑处理，将离散的栅格路径转化为适合USV连续航行的平滑轨迹，形成了从决策到执行的完整路径规划解决方案。 4. 全面且具有说服力的验证：通过在三种不同特征和难度的仿真环境中，与三类具有代表性的基线算法进行多维度（路径长度、平滑度、安全性、收敛速度）的对比实验，充分验证了所提算法的优越性、鲁棒性和泛化能力。
此外，研究团队也坦诚指出了当前工作的局限性：主要考虑了静态环境，未涉及动态障碍物以及风、流等环境扰动因素；同时，算法的计算负担相对较高，导致推断时间较长。这些为未来的研究指明了方向，包括结合实时传感器信息进行动态避障、研究不确定环境扰动下的路径规划，以及在硬件在环实验中进行实际验证等。这些后续工作将进一步推动该算法走向实际海洋应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问