融合优先经验回放与人工势场的改进Dueling DQN机器人路径规划算法

分享自：
融合优先经验回放与人工势场的改进Dueling DQN机器人路径规划算法

期刊:applied intelligenceDOI:10.1007/s10489-024-06149-8
本文是一篇发表在期刊 Applied Intelligence (2025年第55卷第366页) 上的学术研究论文，题为“A Modified Dueling DQN Algorithm for Robot Path Planning Incorporating Priority Experience Replay and Artificial Potential Fields”。其主要作者为 Chang Li，Xiaofeng Yue， Zeyuan Liu， Guoyuan Ma， Hongbo Zhang， Yuan Zhou， Juan Zhu，均来自中国吉林省的长春工业大学机电工程学院。该研究于2024年12月3日被接受，并于2025年1月22日在线发表。
学术背景
本研究隶属于机器人学、人工智能和自动化领域的交叉方向，具体聚焦于移动机器人的路径规划问题。随着自动化与智能化技术的进步，移动机器人在工业生产、服务业、医疗等诸多领域扮演着日益重要的角色，而自主导航是其核心能力之一。路径规划作为实现自主导航的关键技术，旨在为机器人在其工作环境中规划一条从起点到目标点的最优（或次优）且无碰撞的可行路径。
传统的路径规划算法主要分为经典算法（如Dijkstra、A*、人工势场法（Artificial Potential Field, APF））、仿生算法（如遗传算法、蚁群算法）等。尽管这些方法在已知全局环境信息的静态场景中表现良好，但它们通常难以应对缺乏先验信息的未知环境或动态环境中的不确定性，且部分算法（如A*）在复杂连续障碍环境中计算复杂度高，而APF算法则易陷入局部最小值陷阱。
近年来，深度强化学习（Deep Reinforcement Learning, DRL）因其结合了深度学习的感知能力和强化学习的决策能力，为解决复杂环境下的路径规划问题提供了新思路。特别是基于深度Q网络（Deep Q-Network, DQN）及其改进算法（如Dueling DQN， Double DQN）的研究取得了一定进展。然而，现有DRL方法在机器人路径规划应用中仍面临学习效率低、收敛速度慢、推理速度不理想以及奖励稀疏等问题。
基于此背景，本研究旨在针对机器人路径规划中的上述挑战，提出一种改进的深度强化学习算法。其主要目标是通过集成多种优化策略，显著提升算法在学习效率、收敛速度和规划路径质量方面的性能，从而使机器人能够更高效地在复杂环境中规划出较短的可行路径。
详细工作流程
本研究工作流程可概括为以下几个核心步骤：问题建模、算法设计与改进、仿真实验设计与验证。整个过程围绕所提出的改进型Dueling DQN算法展开。
1. 问题建模与环境构建 研究首先将机器人路径规划问题建模为一个马尔可夫决策过程（Markov Decision Process, MDP）。在MDP框架下，定义了状态空间（S）、动作空间（A）、状态转移概率（P）和奖励函数（R）。具体实现采用二维栅格地图对环境进行建模。地图被划分为等大的正方形栅格（分辨率1m x 1m），其中障碍物由黑色栅格表示，机器人的自由移动区域由白色栅格表示。机器人的位置（坐标）构成了其状态。起点和目标点分别用蓝色圆形和绿色正方形标记。这种离散化的网格环境为DRL代理（即机器人）提供了一个清晰的学习和交互平台。
2. 改进的Dueling DQN算法设计 这是本研究的核心，包含多项创新性改进，具体流程如下：
a. 扩展机器人移动空间： 不同于传统四方向（上、下、左、右）移动，本研究将机器人的动作空间扩展到八个方向，新增了四个对角线方向（左上、右上、左下、右下）。这增加了机器人动作选择的多样性和灵活性，使其更贴近实际运动，并有望加速学习过程。
b. 设计复合奖励函数： 为解决传统DRL路径规划中奖励稀疏问题，研究者设计了一个新颖的复合奖励函数，由四个部分组成，旨在提供更密集、更具引导性的反馈信号。
距离变化奖励 (Rd)： 根据机器人每一步动作后与目标点欧氏距离的变化给予奖励。距离缩短给予正奖励，距离增加给予负奖励，距离不变则给予一个较小的负奖励，以鼓励持续接近目标并避免在原地徘徊。
局部观测奖励 (Ro)： 机器人每一步观测其周围5x5栅格区域（分为内层和外层）。当在外层检测到障碍物时给予较小的负奖励，在内层检测到障碍物时给予加倍的负奖励，以强调近距离障碍的风险。当在内层检测到目标点时给予正奖励，鼓励其快速接近目标。
移动惩罚 (Rm)： 对机器人的每一步移动施加一个固定的负值（小惩罚），以鼓励其寻找更短的路径（减少总步数）。
事件完成奖励 (Ri)： 当机器人成功到达目标时给予大的正奖励；当发生碰撞（碰到障碍物或地图边界）时给予大的负奖励。这两类事件均标志着一个训练回合的终止。 这四种奖励机制综合了全局目标导向、局部避障感知、路径长度优化和任务完成判定，共同引导代理学习有效的策略。
c. 集成优先级经验回放策略： 在标准的Dueling DQN网络训练中，本研究采用了优先级经验回放（Prioritized Experience Replay, PER）机制。不同于传统经验回放池的均匀随机采样，PER根据每个经验样本的时间差分误差（Temporal Difference error, TD-error）的大小赋予其不同的采样优先级。TD-error大的样本（即当前网络预测与实际目标Q值差异大的经验）被认为具有更高的学习价值，因此被采样的概率更高。这种方法提高了关键经验数据的利用率，有助于加速网络收敛。同时，为了平衡样本多样性，采样概率的计算引入了一个可调参数α，并在计算损失时使用重要性采样权重来校正由非均匀采样带来的偏差。
d. 基于APF的动作选择策略： 为更好地平衡强化学习中的探索与利用（exploration-exploitation），本研究提出了一种结合了ε-贪婪策略和人工势场法干预的混合动作选择策略。
ε-贪婪策略： 设定一个初始较高的探索率ε_i，并随着训练步数的增加而线性衰减至一个较低的终值ε_f。在每个时间步，生成一个随机数p。若p < ε，则进入探索模式；否则，执行利用模式，即选择当前Q值网络估计的最优动作。
APF干预： 在探索模式内部，进一步引入一个随机决策。以80%的概率进行完全随机探索（从8个动作中随机选择），以20%的概率启用APF引导的探索。APF引导的探索会计算当前位置受到目标点（吸引力）和局部观测范围内障碍物（排斥力）的合力方向，然后从8个动作中选择与合力方向最接近的那个动作。这个设计使得在探索阶段，机器人有部分机会依据物理启发式规则（势场力）做出更可能接近目标、避开障碍的决策，从而减少无效的盲目探索，加速初期学习进程。
e. 算法整合与训练流程： 将以上所有组件整合到Dueling DQN的网络架构中。Dueling DQN的核心创新是将Q值函数分解为状态价值函数V(s)和优势函数A(s, a)，有助于网络更准确地评估不同状态的价值以及特定动作带来的相对优势。训练时，采用一个评估网络（在线更新）和一个目标网络（定期同步参数）。代理在栅格环境中交互，产生经验样本（s, a, r, s’），并将其以优先级方式存入PER缓冲池。然后，定期从缓冲池中采样一个小批次（batch）的数据，基于双网络结构和Bellman方程来计算损失（采用Huber损失函数），并通过反向传播更新评估网络的参数。目标网络每隔固定步数从评估网络同步参数。整个训练过程持续固定的总步数（如10,000步）。
3. 仿真实验设计与验证 为验证所提算法的有效性，研究设计了详细的对比仿真实验。
a. 实验对象与环境： 实验在两种不同复杂度的静态栅格地图环境中进行：环境(a)障碍物相对较少且集中；环境(b)障碍物更多、更分散，并包含U形陷阱以增加难度。起点和目标点固定。实验对象为六个算法模型：1) 本文提出的改进Dueling DQN算法（简称本文算法）；2) 不包含APF干预的Dueling DQN算法（Dueling DQN w/o APF）；3) 使用四方向动作空间的Dueling DQN算法（Dueling DQN-4Dir）；4) 不包含局部观测奖励机制的Dueling DQN算法（Dueling DQN w/o Local Reward）；5) 结合了APF策略的Double DQN算法（Double DQN w/ APF）；6) 未结合APF策略的Double DQN算法（Double DQN w/o APF）。
b. 实验过程：
训练阶段： 所有算法在两个环境中分别独立训练相同的总步数（10,000步）。训练过程中记录每个训练回合（episode）获得的总奖励，以绘制学习曲线，观察收敛速度和稳定性。
推理/测试阶段： 训练结束后，选取每个算法在各自环境中训练得到的最佳权重模型（通常是性能表现最好的模型快照），用于进行路径规划推理测试。在推理阶段，设置最大步数限制（1000步），让模型从固定起点出发进行多次（例如50次）路径规划，并统计关键性能指标。
c. 数据分析： 主要分析以下几类数据：
学习曲线： 对比不同算法的总奖励随训练回合数的变化趋势，评估其收敛速度和最终收敛的稳定性。
路径可视化： 展示各算法在最佳模型下规划出的实际路径，直观比较路径的平滑度、长度和避障合理性。
性能指标量化： 在推理阶段收集并计算以下指标： 平均路径长度： 成功到达目标的多个回合中路径长度的平均值。
推理时间： 完成一定次数推理所需的平均时间。
最大推理次数与成功次数： 在固定的最大步数（1000步）限制下，能够完成的最大回合数以及其中成功到达目标的回合数。
成功到达所需的平均训练回合数： 从学习曲线中估算算法奖励值趋于稳定所需的训练回合数。
主要结果
1. 在环境(a)（相对简单）中的结果： * 收敛速度： 本文提出的算法在约160个训练回合后开始稳定收敛。相比之下，其他对比算法达到稳定状态所需的回合数更多：Dueling DQN w/o APF约需220回合，Double DQN w/ APF约需200回合，Double DQN w/o APF约需210回合。Dueling DQN-4Dir虽然收敛较早（约130回合），但其最终稳定后的总奖励值曲线明显低于本文算法。Dueling DQN w/o Local Reward约需198回合。这表明本文算法集成的APF干预、扩展动作空间和局部奖励机制有效加速了收敛。与各对比算法相比，收敛所需回合数分别减少了约17.87%、12.58%、15.67%、8.45%（相对于Dueling DQN-4Dir，但其奖励更低）和16.69%。 * 路径规划质量： 在推理测试中，本文算法规划出的平均路径长度最短（33.769米），且在所有37次推理尝试中均成功到达目标。相比之下，Dueling DQN-4Dir由于动作受限，路径最长（44.091米），且只能完成22次推理。其他算法的平均路径长度在34.029米至34.593米之间，略长于本文算法。本文算法的推理时间也略短或与其他算法相当。 * 路径可视化： 生成的路径图显示，本文算法规划的路径（图中红色实线）更为直接、平滑，没有不必要的迂回，能有效避开障碍物。
2. 在环境(b)（更为复杂）中的结果： * 收敛速度： 在障碍物更复杂的环境中，所有算法的收敛都更具挑战性。本文算法在约185回合后稳定。其他算法需要的回合数显著增加：Dueling DQN w/o APF需约296回合，Double DQN w/o APF甚至未能完全稳定收敛，曲线后期波动较大。本文算法相对于Dueling DQN w/o APF、Double DQN w/o APF等，收敛回合数减少幅度更大（分别约29.35%和16.37%），进一步证明了其在复杂环境下的鲁棒性和高效性。 * 路径规划质量： 本文算法的平均路径长度（41.567米）再次优于所有对比算法。Dueling DQN-4Dir不仅路径更长（47.0米），且在21次推理中出现1次失败。Double DQN w/ APF和Double DQN w/o APF在推理中分别出现了1次和2次失败。本文算法在27次推理中全部成功。 * 路径可视化： 在复杂U形障碍环境中，本文算法依然能规划出相对简洁、有效的路径，成功穿越障碍密集区并抵达目标，而部分对比算法的路径则显得更为曲折或陷入局部区域。
3. 消融实验验证： 通过与其他变体算法（Dueling DQN w/o APF， Dueling DQN w/o Local Reward， Dueling DQN-4Dir）的对比，结果清晰地验证了APF干预策略、局部观测奖励机制以及八方向动作空间各自对于提升收敛速度和路径质量的有效性。缺少任一组件的算法性能均有不同程度的下降。
结论
本研究成功提出并验证了一种用于机器人路径规划的改进型Dueling DQN算法。该算法通过融合优先级经验回放策略、扩展的八方向移动空间、基于人工势场法干预的动作选择策略以及一种新颖的复合奖励函数，显著提升了深度强化学习在路径规划任务中的性能。
研究的科学价值与应用价值： * 科学价值： 本研究为深度强化学习领域，特别是将其应用于机器人控制与路径规划方向，提供了有价值的算法改进思路。它展示了如何通过有效集成经典路径规划方法（APF）的启发式知识与现代DRL框架，以及通过精心设计的奖励机制和采样策略，来解决DRL固有的学习效率低、收敛慢等问题。这种“混合智能”方法对于推动DRL在复杂决策任务中的应用具有借鉴意义。 * 应用价值： 所提出的算法能够使移动机器人在相对复杂的静态环境中更快速、更可靠地规划出较短的导航路径。这有助于提高移动机器人在仓储物流、室内服务、危险环境勘探等实际场景中的自主运行效率和可靠性。算法在栅格地图上的实现方式也相对易于理解和移植到实际的机器人仿真或控制系统中。
研究亮点
创新的混合动作选择策略： 创造性地将经典的人工势场法与ε-贪婪探索策略相结合，使机器人在探索阶段能部分依据物理启发规则行动，大大减少了无效探索，是加速初期收敛的关键。
精心设计的复合奖励函数： 提出的奖励函数综合了距离变化、局部环境感知、步数惩罚和任务完成信号，有效缓解了稀疏奖励问题，为智能体提供了密集且多层次的学习引导信号。
全面的性能优化集成： 并非单一改进，而是系统地集成了扩展动作空间、优先级经验回放、改进的网络结构（Dueling DQN）和上述奖励与探索策略，形成了一个协同优化的整体解决方案。
充分的实验验证： 通过在两种不同复杂度的静态环境中与多种基线算法（包括消融实验变体）进行详尽的对比实验，从收敛曲线、路径长度、成功率等多角度定量和定性地验证了所提算法的优越性和各改进组件的有效性，论证充分。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问