融合DDPG算法的移动机器人路径规划研究

分享自：
融合DDPG算法的移动机器人路径规划研究

期刊:控制工程DOI:10.14107/j.cnki.kzgc.20210369
关于《融合DDPG算法的移动机器人路径规划研究》的学术研究报告
本文旨在向中国学术界介绍一篇发表于2021年《控制工程》第28卷第11期的原创性研究论文。该研究由南京航空航天大学自动化学院的张瀚、解明扬、张民以及澳门科技大学系统工程研究所的伍乃骐合作完成。论文题为“融合DDPG算法的移动机器人路径规划研究”，聚焦于机器人学与人工智能交叉领域中的关键问题——未知动态环境下的移动机器人自主导航。
一、 研究背景与目的
路径规划是移动机器人实现自主导航的核心技术。传统的路径规划算法，如全局规划领域的A*、Dijkstra算法，以及局部规划领域的快速扩展随机树（RRT）、人工势场法（Artificial Potential Field, APF）等，虽然在特定场景下表现出色，但在面对未知、动态变化的环境时，往往存在局限性。例如，全局算法需要预先获取精确的环境地图，而这在动态环境中难以实现；RRT算法规划速度快但无法保证路径最优；APF法虽能用于未知环境，却容易陷入局部最优；而诸如遗传算法、蚁群算法等群智能算法则因计算复杂度高，难以满足动态环境下的实时性要求。
近年来，深度强化学习（Deep Reinforcement Learning, DRL）为解决此类问题提供了新思路。DRL结合了深度学习的感知能力和强化学习的决策能力，使机器人能够通过与环境的交互学习最优策略。深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）算法作为一种主流的DRL算法，在连续动作空间控制问题上表现出优势，已成功应用于无人机避障等领域。然而，单纯的DDPG算法在路径规划的平滑性和效率方面仍有提升空间。
基于此，本研究团队提出了一项融合创新方案。他们旨在解决的核心问题是：如何提升移动机器人在未知动态环境中路径规划的性能，特别是在路径长度和平滑度（减少剧烈转向）两个方面。为此，他们提出了将DDPG算法与经典的人工势场法相融合的新路径规划方法。其核心目标是：利用DDPG强大的环境学习和决策能力，同时引入APF法在路径平滑和导向方面的直观物理启发，以产生更优、更稳定的规划效果。
二、 研究方案与工作流程详解
本研究的工作流程是一个完整的“算法设计-仿真验证”闭环，主要包含以下几个关键步骤：
第一步：基于DDPG的路径规划模型构建与训练。 这是研究的算法基础。研究者首先为移动机器人定义了适合路径规划任务的马尔可夫决策过程框架。 1. 状态空间设计：状态输入（st）是一个复合向量，包括：10个维度的激光雷达数据（dt，表示10个方位上到障碍物的距离）、上一时刻的动作（at-1，包含线速度和角速度）、机器人当前与目标点的方位（ρt）和距离（χt）。这种设计使机器人能同时感知环境障碍、自身运动状态和目标位置。 2. 动作空间设计：输出动作（at）是二维连续量，即机器人的线速度（v）和角速度（ω）。 3. 奖励函数设计：为了引导机器人学习“无碰撞、快速抵达目标”的行为，奖励函数（r）由三部分组成：抵达目标奖励（r_arrival，当距离小于阈值时给予大额正奖励）、碰撞惩罚（r_collision，当与障碍物距离过近时给予大额负奖励）、距离变化奖励（r_dis，根据每一步距离目标的增减给予小额的正面或负面激励）。总奖励为三者之和，这一设计巧妙地平衡了最终目标与过程优化。 4. 神经网络结构：策略网络（Actor）和价值网络（Critic）均采用四层全连接神经网络。策略网络以状态为输入，输出动作；价值网络以状态和动作为输入，输出Q值评估。网络使用ReLU和Sigmoid激活函数，这是处理此类连续控制问题的标准架构。
研究者随后在仿真环境中运行标准的DDPG算法流程（包含经验回放、目标网络等技术），让机器人通过大量试错来学习策略。
第二步：融合人工势场法的动作干预策略。 这是本研究的核心创新点。研究者并非简单地将两种算法并列运行，而是设计了一种精巧的融合机制。在机器人每一步根据DDPG策略网络输出基础动作后，利用人工势场法的思想计算一个额外的“修正动作”，主要针对角速度进行干预。 1. 干预逻辑：当机器人探测到障碍物或靠近目标时，根据障碍物的相对方位（β，由激光雷达数据确定）和与目标的距离（χ），计算出一个附加的角速度分量（aω2）。公式（见原文式9）包含了基于距离和方位的调整项，其物理意义类似于APF中的“斥力”（来自障碍物）和“引力”（来自目标）对机器人转向的影响。 2. 融合执行：最终执行的动作是DDPG输出的原始动作（a = [av, aω1]）与APF修正动作（a2 = [av, aω2]）的某种结合（流程见图2）。这种方式相当于用APF的规则性、导向性知识去“微调”DDPG学习到的策略，旨在使规划出的路径更平滑、更直接。
第三步：在四种仿真环境中进行性能验证。 为了全面评估算法性能，研究者在机器人操作系统（ROS）和Gazebo仿真平台上构建了四个复杂度递增的二维环境（图5）。 1. 环境设计：环境一相对简单；环境二增加了静态障碍物；环境三引入了沿X轴、Y轴和XY平面运动的三个动态障碍物；环境四最为复杂，同时包含静态障碍物、动态障碍物和直角墙壁结构。动态障碍物的运动模式通过随机方程控制，模拟了真实环境的不确定性。 2. 实验对象与平台：实验使用TurtleBot3移动机器人模型，其运动学模型为两轮差速驱动。实验在配备了激光雷达传感器的仿真机器人上进行。 3. 对比基准：将提出的融合算法与单纯的DDPG算法、经典的人工势场法（APF）进行对比。 4. 评估指标：主要评估三个关键指标：① 路径长度：从起点到终点的行驶总距离。② 路径平滑度：通过统计机器人在行驶过程中角速度绝对值超过1.0 rad/s的次数来间接衡量，次数越少表明转向越平缓，路径越平滑。③ 任务成功率：在多次试验中，机器人成功无碰撞抵达目标点的比率。
三、 研究结果及其逻辑关联
仿真实验获得了清晰且具有说服力的结果，系统地证明了融合算法的优越性。
首先，在路径长度方面，如表2所示，融合算法在四个环境中规划出的路径均比单纯的DDPG算法更短。缩短幅度在3%到10%之间。例如，在最复杂的动态环境四中，融合算法的路径长度仅为19.7米，而DDPG算法长达40.6米，优势极其明显。这直接说明，APF的引入有效引导了机器人选择更接近目标的方向，避免了DDPG策略可能产生的冗余探索或绕行。
其次，在路径平滑度方面，结果更为突出。图8展示了机器人运行时的角速度响应曲线，而表3则统计了角速度超过阈值（1.0 rad/s）的剧烈转向次数。数据显示，融合算法在四个环境中引发的剧烈转向次数相比DDPG算法减少了5%到12.5%。这一结果与图7中的路径对比图相呼应：融合算法规划出的路径（图中所示）曲线更为流畅，转弯幅度更小；而DDPG算法的路径则可能出现较多的急弯（对应角速度尖峰）。这证明APF的干预成功地平抑了DDPG策略输出的动作，使其更符合物理平台的运动特性，提升了行驶的稳定性和效率。
第三，关于任务成功率，图9的综合对比显示，融合算法在未知动态环境下的路径规划成功率比DDPG算法提升了近10%。这表明融合策略不仅优化了路径质量，也提高了算法的鲁棒性和可靠性。一个至关重要的对比结果是，经典的人工势场法（APF）虽然在简单的静态环境（环境一、二）中能规划出最短路径，但在包含动态障碍物的环境三和环境四中完全无法完成规划任务（成功率极低或路径无限长）。这恰好凸显了单纯传统方法在动态环境中的致命缺陷，也反向印证了引入具有学习能力的DDPG算法的必要性——只有通过学习，机器人才能适应环境的变化。
这些结果之间存在着紧密的逻辑链条：APF的修正动作干预 → 导致机器人动作（特别是角速度）更平滑、目标导向性更强 → 进而表现为行驶路径更短、转弯更缓 → 最终使得在复杂动态环境中成功抵达目标的概率更高。整个逻辑闭环有力地支撑了论文的核心论点：DDPG与APF的融合能够取长补短，产生“1+1>2”的效果。
四、 研究结论与价值
本研究得出明确结论：针对传统路径规划算法在未知动态环境中感知与适应能力不足的问题，所提出的基于DDPG与人工势场法相融合的路径规划算法是有效的。该算法不仅继承了DDPG强大的环境学习和决策能力，还通过融合APF的启发式规则，显著提升了规划路径的平滑度，并缩短了路径长度，从而提高了移动机器人在复杂动态场景下的导航成功率和整体性能。
此项研究的价值体现在多个层面： 1. 方法论价值：提出了一种新颖的“学习型算法”与“规则型算法”的融合范式。它不是简单的算法串联或并联，而是在动作决策层面进行深度融合，为强化学习与传统控制方法的结合提供了一个具体且成功的案例。 2. 应用价值：研究成果直接面向移动机器人、自动驾驶等领域的实际需求。提升路径的平滑度和长度，意味着更快的任务执行速度、更低的能量消耗以及更佳的乘坐舒适度（对于载人工具）和设备磨损，具有明确的工程应用前景。 3. 学术价值：研究通过严谨的对比实验（四种环境、三种算法、多项量化指标），清晰地揭示了融合策略的优势所在及其作用机理，为后续相关研究奠定了坚实的基础。
五、 研究亮点
本研究的亮点突出体现在以下几个方面： 1. 创新性的融合策略：将深度强化学习（DDPG）与经典人工势场法（APF）在动作选择层面进行深度融合，是核心的创新点。这种融合方式巧妙地将数据驱动的学习能力与模型驱动的导向能力结合，解决了单一方法的局限性。 2. 显著的性能提升：通过详实的仿真实验数据，客观地证明了融合算法在关键性能指标（路径长度、平滑度、成功率）上均优于基准算法，尤其在包含动态障碍物的复杂环境中优势巨大。 3. 系统化的验证框架：研究者构建了从简单到复杂、从静态到动态的一系列仿真环境，并设定了多维度的量化评估体系，使得算法性能的对比和评估非常全面、可信。 4. 对现实挑战的直面：研究直接瞄准“未知动态环境”这一现实世界中机器人导航面临的核心挑战，使得研究成果具有更强的实用性和前沿性。
这项由南京航空航天大学和澳门科技大学团队完成的研究，为解决移动机器人在动态环境中的路径规划问题提供了一种有效且创新的解决方案，其方法设计和实验结论对机器人导航领域的研究者和工程师都具有重要的参考价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问