本文介绍了一项关于自主移动机器人在复杂未知环境中路径规划的最新研究,题为“Path Planning of Autonomous Mobile Robot in Comprehensive Unknown Environment Using Deep Reinforcement Learning”。这项研究由西安理工大学的Zekun Bai、Hui Pang (IEEE会员)、Zhaonian He、Bin Zhao和Tong Wang共同完成,发表于学术期刊《IEEE Internet of Things Journal》(卷11,期12,2024年6月15日)。
该研究的学术领域属于机器人学、人工智能与自动控制交叉领域,具体聚焦于自主移动机器人(Autonomous Mobile Robot, AMR)的路径规划问题。在现实世界的应用,如生物医学、空间探索、工程设备检修与维护等场景中,AMR因其体积小、部署灵活、可独立完成任务等优点而展现出广阔的应用前景。然而,在未知环境中进行路径规划时,传统方法常常面临一系列难以避免的问题,例如:高度依赖先验环境信息、推理时间长、抗干扰能力弱等。这些缺陷限制了AMR在动态、复杂且信息不全的环境中的自主性和鲁棒性。
为应对这些挑战,研究人员提出了各种路径规划算法,主要分为三类:传统算法(如图搜索的A*算法、人工势场法APF、快速扩展随机树RRT)、仿生算法(如遗传算法、蚁群算法)以及基于学习的方法(如深度强化学习DRL)。传统算法和仿生算法通常难以在没有全局先验环境信息的情况下有效工作,并且对系统扰动等不确定性缺乏适应性。近年来,深度强化学习(Deep Reinforcement Learning, DRL)凭借其结合深度学习的感知能力和强化学习的决策能力,在解决高维输入与动作之间的映射问题上显示出巨大潜力,为AMR在未知环境中的自主学习与路径规划提供了新思路。
本研究的目的在于解决AMR在“综合性未知环境”下的路径规划难题。具体目标包括:设计一个能够快速引导AMR安全抵达目标区域的算法,提高算法的学习效率和收敛速度,确保规划出的路径不仅安全、短捷,而且平滑、鲁棒,并能适应环境中的随机扰动。
本研究主要包含四个核心部分:将AMR路径规划问题建模为马尔可夫决策过程;设计一个综合的奖励函数;构建一个改进的双重深度Q网络算法架构;以及使用贝塞尔曲线对规划的路径进行平滑处理。
第一部分:问题建模与理论框架 首先,研究将AMR在未知环境中的路径规划问题形式化为一个马尔可夫决策过程框架。具体来说,这是一个五元组 M = [S, A, P, R, γ],其中: - 状态空间S:为了捕捉环境信息,研究构建了一个30m×30m的二维栅格环境。机器人的状态不仅包括其在栅格中的坐标(x, y),还包含了两个关键的启发式信息:1) 机器人当前位置到目标点的欧氏距离td;2) 机器人传感器探测到的与最近障碍物的欧氏距离od。因此,状态向量被设计为 S = [x, y, td, od]。 - 动作空间A:AMR被允许执行八个离散的动作,分别是上、下、左、右以及四个对角线方向(左上、右上、左下、右下),每个动作使机器人在栅格环境中移动到相邻的状态。 - 奖励函数R的设计(创新点之一):这是本研究的一个核心贡献。为了克服传统强化学习中的“奖励稀疏”问题,并引导机器人高效、安全地学习,研究设计了一个综合的奖励函数,由四个子函数构成: 1. 目标奖励 (rτ1):当机器人进入目标点周围一个小区域时,给予一个大的正奖励,标志着任务成功。 2. 距离奖励 (rτ2):以机器人到目标的负欧氏距离作为奖励。机器人越靠近目标,获得的负奖励越小(即惩罚越小)。这起到了启发式引导的作用,鼓励机器人向目标前进。 3. 边界惩罚 (rτ3):如果机器人尝试移动到环境边界之外,则给予一个大的负奖励,约束其运动范围。 4. 障碍物惩罚 (rτ4):设定一个最小安全距离rs(本研究设为0.6米)。当机器人与任何障碍物的距离小于rs时,给予一个负奖励。这强制机器人在规划路径时保持与障碍物的安全距离,提高了路径的安全性。
第二部分:改进的算法架构——IDDQN 本研究提出的核心算法称为改进的双重深度Q网络算法。该算法在标准DDQN的基础上,进行了三方面的关键改进: 1. 优化的深度神经网络:算法使用一个深度神经网络来近似Q值函数。该网络包含一个输入层、三个隐藏层和一个输出层。输入是状态向量,输出是八个动作对应的Q值。隐藏层使用ReLU激活函数。为了提高学习效率,采用了自适应矩估计优化器来动态调整学习率,并结合了防止梯度爆炸的技术。 2. 自适应ε-贪婪动作选择策略(创新点之二):为了解决探索(尝试新动作)与利用(使用已知最佳动作)之间的权衡问题,本研究摒弃了固定的ε值,提出了一种基于概率的非线性自适应ε-贪婪策略。ε值随训练周期数k自适应衰减,公式为:εk = εf + (εi - εf) / (1 + e^(k/εd))。其中,εi是初始探索率,εf是最终探索率,εd是衰减率。这使得算法在训练早期进行广泛探索以收集多样经验,在训练后期则更多地利用已学知识以加速收敛。 3. 路径平滑处理:由于算法输出的是离散的栅格路径,而实际机器人转向是连续的,离散路径可能不平滑。因此,研究引入了二阶贝塞尔曲线对路径的转折点进行平滑处理。通过连接连续的三个路径点作为控制点,生成平滑的曲线段,最终拼接成一条连续光滑的轨迹,使其更符合机器人的实际运动学约束。
第三部分:仿真实验设计与评估 为了验证所提IDDQN算法的有效性、优越性和鲁棒性,研究团队在PyCharm平台上基于Gym框架构建了仿真模型,并设计了四组不同地形特征和障碍物密度的“综合性未知”栅格环境。实验对比了五种算法:提出的IDDQN、标准的DQN,以及三种传统算法——人工势场法、快速扩展随机树RRT和A*算法。
评估采用了五个关键性能指标: 1. 平均路径长度 2. 路径拐角数量 3. 最大路径转弯角度 4. 路径与障碍物的最小距离 5. 算法推理时间
此外,研究还额外设置了抗干扰能力验证实验。在单目标和多目标环境中,随机引入了位置扰动(模拟地面不平、打滑等情况),即机器人经过某些点时会随机偏移。目的是测试IDDQN算法在存在不可预测扰动时的适应性和鲁棒性。
1. 在无扰动未知环境中的性能比较结果: 仿真结果表明,在所有四种复杂未知环境中,IDDQN算法均能成功规划出从起点到终点的无碰撞路径。与传统算法相比: - APF算法容易陷入局部最优,产生振荡路径,且路径较长。 - RRT算法搜索效率高,但规划出的路径长度长、转折点多,且轨迹过于贴近障碍物,安全性欠佳。 - A*算法能找到较短的路径且转折点少,但其轨迹存在与障碍物边缘碰撞的风险,且环境越复杂,其推理时间急剧增加。
与基准的DQN算法相比,IDDQN展现出了全面的优势: - 路径更优:在四个不同环境中,IDDQN规划的平均路径长度比DQN分别减少了11.69%、8.49%、7.26%和9.82%。同时,IDDQN规划的路径拐角更少,平滑性更好。 - 学习更快:通过观察训练过程中的奖励值曲线,IDDQN达到稳定奖励值所需的训练步数比DQN在四个环境中分别减少了约27.31%、32.17%、52.91%和26.40%。这证明了其自适应探索策略和综合奖励函数有效提升了学习效率和收敛速度。 - 综合性能领先:雷达图分析显示,IDDQN在路径长度、平滑性、安全距离和推理速度等多个指标上均优于或与其他算法相当,尤其是在推理速度上远超传统算法,展现了端到端训练模式的优越性。
2. 在有随机扰动的未知环境中的鲁棒性结果: 在设置了随机位置扰动的单目标和多目标环境中,IDDQN算法依然能够成功引导AMR避开障碍物,抵达所有目标区域。然而,与无扰动环境相比: - 规划出的路径发生了偏移,路径长度有所增加(在多目标复杂环境中增加了约10.12%)。 - 算法达到稳定奖励所需的探索步数大幅增加(在多目标环境中增加了约66.06%)。 - 路径的转弯角度和拐点数量也因需要抵消扰动影响而有所增加。
尽管如此,关键结果表明:环境扰动并未阻止IDDQN算法完成路径规划任务,且规划出的路径始终能与障碍物保持安全距离。这充分证明了IDDQN算法具备从零开始学习扰动信息的能力,拥有良好的环境适应性和鲁棒性。
本研究得出结论:所提出的改进双重深度Q网络算法能够有效解决自主移动机器人在综合性未知环境中的路径规划问题。通过集成综合奖励函数、自适应探索策略、优化的神经网络以及路径平滑技术,该算法不仅能够规划出比传统方法和标准DQN更安全、更短、更平滑的路径,而且具备更快的收敛速度和更强的学习效率。更重要的是,仿真实验验证了该算法在面对环境随机扰动时,依然能保持可靠的性能,展现出优异的适应性和鲁棒性。
该研究的科学价值在于,它系统地提出并验证了一个融合了多种改进策略的深度强化学习框架,为解决未知环境下AMR路径规划的经典难题提供了新的、有效的解决方案。其应用价值则直接体现在各类需要AMR在动态、非结构化环境中自主工作的领域,如无人仓储、灾难救援、野外勘探等,为实现更高程度的机器人自主导航提供了算法支撑。
论文在引言部分对现有的路径规划算法进行了清晰的梳理和分类(传统算法、仿生算法、学习型算法),并指出了各自的局限性,为提出新方法提供了充分的学术背景铺垫。此外,文章详细描述了将连续环境离散化为栅格地图的方法,以及AMR动作执行的状态转移规则,使得整个MDP模型的构建过程清晰、可复现。研究得到中国国家自然科学基金和陕西省自然科学基金的资助,也体现了该课题的重要性和受支持程度。