本文是一篇发表在期刊 Applied Intelligence (2025年第55卷第366页) 上的学术研究论文,题为“A Modified Dueling DQN Algorithm for Robot Path Planning Incorporating Priority Experience Replay and Artificial Potential Fields”。其主要作者为 Chang Li,Xiaofeng Yue, Zeyuan Liu, Guoyuan Ma, Hongbo Zhang, Yuan Zhou, Juan Zhu,均来自中国吉林省的长春工业大学机电工程学院。该研究于2024年12月3日被接受,并于2025年1月22日在线发表。
学术背景
本研究隶属于机器人学、人工智能和自动化领域的交叉方向,具体聚焦于移动机器人的路径规划问题。随着自动化与智能化技术的进步,移动机器人在工业生产、服务业、医疗等诸多领域扮演着日益重要的角色,而自主导航是其核心能力之一。路径规划作为实现自主导航的关键技术,旨在为机器人在其工作环境中规划一条从起点到目标点的最优(或次优)且无碰撞的可行路径。
传统的路径规划算法主要分为经典算法(如Dijkstra、A*、人工势场法(Artificial Potential Field, APF))、仿生算法(如遗传算法、蚁群算法)等。尽管这些方法在已知全局环境信息的静态场景中表现良好,但它们通常难以应对缺乏先验信息的未知环境或动态环境中的不确定性,且部分算法(如A*)在复杂连续障碍环境中计算复杂度高,而APF算法则易陷入局部最小值陷阱。
近年来,深度强化学习(Deep Reinforcement Learning, DRL)因其结合了深度学习的感知能力和强化学习的决策能力,为解决复杂环境下的路径规划问题提供了新思路。特别是基于深度Q网络(Deep Q-Network, DQN)及其改进算法(如Dueling DQN, Double DQN)的研究取得了一定进展。然而,现有DRL方法在机器人路径规划应用中仍面临学习效率低、收敛速度慢、推理速度不理想以及奖励稀疏等问题。
基于此背景,本研究旨在针对机器人路径规划中的上述挑战,提出一种改进的深度强化学习算法。其主要目标是通过集成多种优化策略,显著提升算法在学习效率、收敛速度和规划路径质量方面的性能,从而使机器人能够更高效地在复杂环境中规划出较短的可行路径。
详细工作流程
本研究工作流程可概括为以下几个核心步骤:问题建模、算法设计与改进、仿真实验设计与验证。整个过程围绕所提出的改进型Dueling DQN算法展开。
1. 问题建模与环境构建 研究首先将机器人路径规划问题建模为一个马尔可夫决策过程(Markov Decision Process, MDP)。在MDP框架下,定义了状态空间(S)、动作空间(A)、状态转移概率(P)和奖励函数(R)。具体实现采用二维栅格地图对环境进行建模。地图被划分为等大的正方形栅格(分辨率1m x 1m),其中障碍物由黑色栅格表示,机器人的自由移动区域由白色栅格表示。机器人的位置(坐标)构成了其状态。起点和目标点分别用蓝色圆形和绿色正方形标记。这种离散化的网格环境为DRL代理(即机器人)提供了一个清晰的学习和交互平台。
2. 改进的Dueling DQN算法设计 这是本研究的核心,包含多项创新性改进,具体流程如下:
a. 扩展机器人移动空间: 不同于传统四方向(上、下、左、右)移动,本研究将机器人的动作空间扩展到八个方向,新增了四个对角线方向(左上、右上、左下、右下)。这增加了机器人动作选择的多样性和灵活性,使其更贴近实际运动,并有望加速学习过程。
b. 设计复合奖励函数: 为解决传统DRL路径规划中奖励稀疏问题,研究者设计了一个新颖的复合奖励函数,由四个部分组成,旨在提供更密集、更具引导性的反馈信号。
c. 集成优先级经验回放策略: 在标准的Dueling DQN网络训练中,本研究采用了优先级经验回放(Prioritized Experience Replay, PER)机制。不同于传统经验回放池的均匀随机采样,PER根据每个经验样本的时间差分误差(Temporal Difference error, TD-error)的大小赋予其不同的采样优先级。TD-error大的样本(即当前网络预测与实际目标Q值差异大的经验)被认为具有更高的学习价值,因此被采样的概率更高。这种方法提高了关键经验数据的利用率,有助于加速网络收敛。同时,为了平衡样本多样性,采样概率的计算引入了一个可调参数α,并在计算损失时使用重要性采样权重来校正由非均匀采样带来的偏差。
d. 基于APF的动作选择策略: 为更好地平衡强化学习中的探索与利用(exploration-exploitation),本研究提出了一种结合了ε-贪婪策略和人工势场法干预的混合动作选择策略。
e. 算法整合与训练流程: 将以上所有组件整合到Dueling DQN的网络架构中。Dueling DQN的核心创新是将Q值函数分解为状态价值函数V(s)和优势函数A(s, a),有助于网络更准确地评估不同状态的价值以及特定动作带来的相对优势。训练时,采用一个评估网络(在线更新)和一个目标网络(定期同步参数)。代理在栅格环境中交互,产生经验样本(s, a, r, s’),并将其以优先级方式存入PER缓冲池。然后,定期从缓冲池中采样一个小批次(batch)的数据,基于双网络结构和Bellman方程来计算损失(采用Huber损失函数),并通过反向传播更新评估网络的参数。目标网络每隔固定步数从评估网络同步参数。整个训练过程持续固定的总步数(如10,000步)。
3. 仿真实验设计与验证 为验证所提算法的有效性,研究设计了详细的对比仿真实验。
a. 实验对象与环境: 实验在两种不同复杂度的静态栅格地图环境中进行:环境(a)障碍物相对较少且集中;环境(b)障碍物更多、更分散,并包含U形陷阱以增加难度。起点和目标点固定。实验对象为六个算法模型:1) 本文提出的改进Dueling DQN算法(简称本文算法);2) 不包含APF干预的Dueling DQN算法(Dueling DQN w/o APF);3) 使用四方向动作空间的Dueling DQN算法(Dueling DQN-4Dir);4) 不包含局部观测奖励机制的Dueling DQN算法(Dueling DQN w/o Local Reward);5) 结合了APF策略的Double DQN算法(Double DQN w/ APF);6) 未结合APF策略的Double DQN算法(Double DQN w/o APF)。
b. 实验过程:
c. 数据分析: 主要分析以下几类数据:
主要结果
1. 在环境(a)(相对简单)中的结果: * 收敛速度: 本文提出的算法在约160个训练回合后开始稳定收敛。相比之下,其他对比算法达到稳定状态所需的回合数更多:Dueling DQN w/o APF约需220回合,Double DQN w/ APF约需200回合,Double DQN w/o APF约需210回合。Dueling DQN-4Dir虽然收敛较早(约130回合),但其最终稳定后的总奖励值曲线明显低于本文算法。Dueling DQN w/o Local Reward约需198回合。这表明本文算法集成的APF干预、扩展动作空间和局部奖励机制有效加速了收敛。与各对比算法相比,收敛所需回合数分别减少了约17.87%、12.58%、15.67%、8.45%(相对于Dueling DQN-4Dir,但其奖励更低)和16.69%。 * 路径规划质量: 在推理测试中,本文算法规划出的平均路径长度最短(33.769米),且在所有37次推理尝试中均成功到达目标。相比之下,Dueling DQN-4Dir由于动作受限,路径最长(44.091米),且只能完成22次推理。其他算法的平均路径长度在34.029米至34.593米之间,略长于本文算法。本文算法的推理时间也略短或与其他算法相当。 * 路径可视化: 生成的路径图显示,本文算法规划的路径(图中红色实线)更为直接、平滑,没有不必要的迂回,能有效避开障碍物。
2. 在环境(b)(更为复杂)中的结果: * 收敛速度: 在障碍物更复杂的环境中,所有算法的收敛都更具挑战性。本文算法在约185回合后稳定。其他算法需要的回合数显著增加:Dueling DQN w/o APF需约296回合,Double DQN w/o APF甚至未能完全稳定收敛,曲线后期波动较大。本文算法相对于Dueling DQN w/o APF、Double DQN w/o APF等,收敛回合数减少幅度更大(分别约29.35%和16.37%),进一步证明了其在复杂环境下的鲁棒性和高效性。 * 路径规划质量: 本文算法的平均路径长度(41.567米)再次优于所有对比算法。Dueling DQN-4Dir不仅路径更长(47.0米),且在21次推理中出现1次失败。Double DQN w/ APF和Double DQN w/o APF在推理中分别出现了1次和2次失败。本文算法在27次推理中全部成功。 * 路径可视化: 在复杂U形障碍环境中,本文算法依然能规划出相对简洁、有效的路径,成功穿越障碍密集区并抵达目标,而部分对比算法的路径则显得更为曲折或陷入局部区域。
3. 消融实验验证: 通过与其他变体算法(Dueling DQN w/o APF, Dueling DQN w/o Local Reward, Dueling DQN-4Dir)的对比,结果清晰地验证了APF干预策略、局部观测奖励机制以及八方向动作空间各自对于提升收敛速度和路径质量的有效性。缺少任一组件的算法性能均有不同程度的下降。
结论
本研究成功提出并验证了一种用于机器人路径规划的改进型Dueling DQN算法。该算法通过融合优先级经验回放策略、扩展的八方向移动空间、基于人工势场法干预的动作选择策略以及一种新颖的复合奖励函数,显著提升了深度强化学习在路径规划任务中的性能。
研究的科学价值与应用价值: * 科学价值: 本研究为深度强化学习领域,特别是将其应用于机器人控制与路径规划方向,提供了有价值的算法改进思路。它展示了如何通过有效集成经典路径规划方法(APF)的启发式知识与现代DRL框架,以及通过精心设计的奖励机制和采样策略,来解决DRL固有的学习效率低、收敛慢等问题。这种“混合智能”方法对于推动DRL在复杂决策任务中的应用具有借鉴意义。 * 应用价值: 所提出的算法能够使移动机器人在相对复杂的静态环境中更快速、更可靠地规划出较短的导航路径。这有助于提高移动机器人在仓储物流、室内服务、危险环境勘探等实际场景中的自主运行效率和可靠性。算法在栅格地图上的实现方式也相对易于理解和移植到实际的机器人仿真或控制系统中。
研究亮点