动态环境中移动机器人路径规划的全局引导与强化学习分层控制框架

分享自：
动态环境中移动机器人路径规划的全局引导与强化学习分层控制框架

工程学
机械
信息科学
人工智能
自动化
期刊:IEEE Internet of Things JournalDOI:10.1109/JIOT.2024.3459918
【点击此处】阅读全文、收藏及针对性提问
基于全局引导与强化学习的动态环境移动机器人分层路径规划控制框架研究报告
一、 研究作者、机构及发表信息
本研究报告基于一篇发表于 *IEEE Internet of Things Journal*（IEEE物联网期刊）的原创性研究论文。该论文发表于2025年1月1日，刊载于该期刊第12卷第1期第309页。论文的主要作者包括 Hongyang Zhao 和 Xingdong Li（来自东北林业大学机电工程学院），以及 Yanan Guo, Yi Liu 和 Jing Jin（来自哈尔滨工业大学控制科学与工程系）。Yanan Guo 为通讯作者。
二、 研究学术背景
本研究属于机器人学、自动控制与人工智能的交叉领域，具体聚焦于移动机器人的路径规划问题。随着技术进步，移动机器人在资源勘探、货物配送、医疗救援等复杂场景中的应用日益广泛。然而，在动态且不可预测的环境中，如何确保机器人能够安全、高效地导航，同时遵循最优路径并适应环境变化，仍然是自动化和机器人领域面临的一项重大挑战。
传统的路径规划方法主要分为两大类：针对静态、完全已知环境的离线全局路径规划，以及针对部分已知环境中动态障碍物的在线局部路径规划。全局路径规划算法（如A*、遗传算法、灰狼优化算法等）能够在静态环境中规划出全局最优或可行的路径，但通常假设环境是静态的，无法适应动态变化。而局部路径规划方法（如动态窗口法、基于深度强化学习的方法等）虽然能实时响应环境变化和突发障碍物，但往往侧重于局部路径的可行性，可能缺乏对全局路径最优性的考量，导致在复杂环境中效率降低或难以找到最优路径。
因此，有效整合全局路径规划与局部动态避障的优势，在保证全局路径最优性的同时，精确规避动态障碍物，成为一个亟待解决的研究方向。本研究旨在应对这一挑战，提出一种新型的分层控制框架，以实现在动态环境中快速规划出无碰撞、最短且最安全的路径，并根据操作环境中的不确定性自适应调整导航路径。
三、 研究详细工作流程
本研究提出并验证了一个集成了改进灰狼优化算法、纯追踪控制算法和基于深度强化学习的动态切换机制的分层控制框架。整个研究流程主要包括算法设计、仿真验证和物理实验三个主要阶段，具体工作流程如下：
1. 算法框架设计与理论构建 本研究首先构建了一个完整的算法框架，该框架包含三个核心模块： * 全局路径规划模块：采用改进的灰狼优化算法进行离线全局路径规划。IGWO算法在传统灰狼优化算法的基础上，引入了维度学习狩猎策略。该策略允许个体狼（即候选解）从其邻域个体学习并探索新位置，从而生成两个候选解：一个通过传统的GWO策略更新，另一个通过DLH策略基于邻域狼的位置调整生成。通过比较这两个候选解的适应度值，选择更优者进入下一代。这种机制显著提高了算法的收敛速度和种群多样性，避免了早熟收敛。IGWO算法的目标是通过优化一个综合考虑障碍物成本（确保安全距离）和燃料成本（鼓励短路径）的代价函数，为机器人从起点到目标点生成一条全局最优的初始路径。对于多机器人系统，代价函数还额外增加了机器人间碰撞惩罚项。 * 路径跟踪控制模块：采用纯追踪控制算法使机器人精确跟踪由IGWO规划出的全局路径。该算法根据机器人的当前速度动态计算一个前视距离，并在路径上选择一个目标点。通过调整机器人的转向角，使其朝向该目标点运动，从而实现平滑、响应迅速的路径跟踪。 * 局部动态避障模块：采用基于深度确定性策略梯度的深度强化学习算法来应对未知或动态障碍物。DRL控制器接收机器人的状态信息（如与目标点的距离和角度、当前速度、激光雷达测距数据等），通过Actor网络输出机器人的动作（线速度和角速度）。其奖励函数设计为鼓励机器人接近目标、惩罚靠近障碍物、惩罚过低线速度和过高角速度，并在到达目标时给予奖励。 * 自适应切换机制：为了无缝集成全局规划与局部反应，研究设计了一个基于阈值的切换策略。在正常导航时，系统默认使用纯追踪控制器跟踪全局路径。当传感器检测到机器人与最近障碍物的距离低于预设阈值时，系统立即切换到DRL控制器进行实时避障。避障后，当机器人与前方路径点的距离小于安全边界时，系统切换回纯追踪控制，以节省计算成本并回归全局最优路径。
2. 网络训练与仿真验证 在算法设计完成后，研究进入仿真验证阶段，以评估其性能。 * DRL网络训练：研究在Ubuntu 18.04系统下的Gazebo仿真环境中进行。利用PyTorch框架实现DDPG算法，并设置了具体的网络结构（Actor和Critic网络均为多层全连接网络）和超参数（如学习率、折扣因子等）。为了提升训练效率和性能，采用了迁移学习策略：首先在仅有静态障碍物的简单环境中训练机器人；然后使用训练好的网络参数作为初始值，在引入旋转动态障碍物的中等复杂度环境中继续训练；最后在最复杂的静态与动态障碍物混合场景中进行训练。这种渐进式训练方法使机器人能够继承先前学到的知识，加速在新环境中的学习过程。奖励曲线图显示，随着环境复杂度增加，机器人能有效学习并提升避障性能。 * 仿真场景与对比实验：研究设计了8个不同的仿真场景（Scenario 1-8）进行测试，场景复杂度从单机器人静态环境逐步增加到多机器人动态环境。在Scenario 1中，重点比较了IGWO与其他先进启发式算法（PSO, GWO, GWO-MP, GWO-CS）在静态全局路径规划上的性能，指标包括路径长度、收敛速度和碰撞次数。在Scenarios 2-4中，针对单机器人系统，在静态环境中引入突发障碍物，测试了“纯追踪+DRL”混合策略与“纯追踪”策略以及一种非线性模型预测控制方法的避障效果，并对比了机器人的速度、加速度和角速度曲线。在Scenarios 5-8中，将测试扩展到多机器人系统，首先验证了IGWO在多机器人全局协同路径规划上的能力，然后同样引入了突发障碍物，测试了多机器人系统的协同避障性能。
3. 物理实验验证 最后，研究将算法部署到真实的移动机器人平台上进行物理实验验证。实验平台为配备全向轮和单线激光雷达的移动机器人，主控制器集成了NVIDIA Jetson Nano和STM32。实验环境为一个6m x 6m的场地，包含静态立方体障碍物。 * 单机器人实验：分别在简单静态场景、复杂静态场景（障碍物数量增多）和动态场景（在机器人路径上突然放置障碍物）中进行测试。机器人利用Gmapping构建地图，IGWO规划全局路径，纯追踪控制器进行跟踪，遇突发障碍时触发DRL避障。 * 多机器人实验：同样在简单静态、复杂静态和动态场景中测试了多机器人系统的协同导航与避障能力。每个机器人独立运行自己的规划与控制系统，并通过代价函数中的互斥项避免碰撞。
四、 研究主要结果
1. 全局路径规划性能优越：在Scenario 1的静态环境测试中，IGWO算法展现出卓越的性能。其规划出的路径长度（12.9米）最短，相比PSO、GWO、GWO-MP和GWO-CS算法分别缩短了约10.15%、6.52%、4.01%和2.27%。在100次重复实验中，IGWO的碰撞次数（3次）也显著低于其他算法。收敛曲线显示，IGWO的收敛速度最快，且最终适应度值最低，平均适应度值较对比算法降低了1.9%至13.48%。弗里德曼检验和Nemenyi事后检验的统计结果进一步证实了IGWO在路径成本、路径长度和碰撞次数指标上的综合性能排名第一，且与PSO相比存在显著差异。这些结果强有力地证明了IGWO在全局路径优化方面的有效性和稳定性。
2. 分层控制框架有效实现动态避障：在Scenarios 2-4的单机器人动态避障测试中，“纯追踪+DRL”的混合策略成功避免了所有突然出现的障碍物。与纯追踪策略或NMPC方法相比，混合策略规划的轨迹更平滑，能够灵活调整路径绕开障碍物后回归全局路径。速度、加速度和角速度的对比曲线显示，在遇到动态障碍物时，混合策略的控制量波动更为显著，这直接反映了系统为避障而进行的动态调整能力，证明了DRL控制器在应对环境不确定性方面的有效性。多次重复实验均成功避障，验证了切换机制的稳定性。
3. 多机器人协同导航与避障成功：在Scenarios 5-8的测试中，IGWO成功为多个机器人规划了无碰撞且高效的协同路径。纯追踪控制器使得各机器人能够紧密跟随其规划路径，横向误差基本保持在±0.03米以内，证明了跟踪精度。在引入突发障碍物的动态场景中，多机器人系统同样能够通过触发各自的DRL控制器，实时调整局部路径，成功避开障碍物，同时保持机器人间的安全距离，未发生碰撞。这证明了该分层框架能够有效处理多机器人系统中的路径规划、跟踪与动态协同避障问题。
4. 物理实验验证现实可行性：实物机器人实验成功复现了仿真结果。在静态环境中，机器人能够精确跟踪IGWO规划的路径（平均横向误差约0.029米）。当路径上出现未知障碍物时，DRL避障机制被成功触发，机器人安全绕开障碍物并抵达目标点。多机器人实验也表明，系统在真实物理约束下能够实现协同导航与避障。这些实验结果从实践层面证明了所提方法的广泛适用性和在多样复杂环境中的鲁棒性能。
五、 研究结论与价值
本研究成功提出并验证了一种用于动态环境中移动机器人路径规划的分层控制框架。该框架的创新性在于将改进的灰狼优化算法、纯追踪控制算法与基于深度强化学习的动态切换机制有机结合。
其科学价值在于：1) 为解决全局路径最优性与局部动态适应性这一长期矛盾提供了一种有效的集成方案；2) 通过引入DLH策略，显著提升了原始GWO算法在机器人路径规划问题上的收敛速度与求解质量；3) 设计了一种基于距离阈值的自适应切换逻辑，实现了全局规划器与局部反应式控制器之间的平滑、鲁棒切换。
其应用价值显著：该方法使移动机器人（包括单机和多机系统）能够在包含静态和动态障碍物的复杂未知环境中，自主规划出接近全局最优的路径，并实时、安全地规避突发障碍物。这大大提升了机器人在仓储物流、野外巡检、灾难救援等动态现实场景中的自主导航能力和任务执行效率。
六、 研究亮点
首创性的分层框架：据作者所知，这是首个将全局最优路径规划与动态障碍物避障相结合，用于单机器人和多机器人系统的分层控制框架。
算法性能显著提升：提出的IGWO算法在全局路径规划方面，相比现有先进算法，在路径长度、收敛速度和稳定性上均有显著改善。
高效的混合控制策略：结合纯追踪控制与DRL的切换机制，既保证了在已知环境下对全局最优路径的精确跟踪，又赋予了机器人应对未知动态障碍的强大实时避障能力。
系统化的验证：研究通过从简单到复杂的系列仿真场景（单/多机器人、静/动态障碍）以及真实的物理实验，全面、系统地验证了方法的有效性、优越性和鲁棒性。
工程实用性：采用的DRL训练结合了迁移学习，加速了训练过程并提升了模型在复杂环境中的泛化能力。整个系统基于ROS实现，易于部署到实际机器人平台。
七、 其他有价值内容
本研究还详细阐述了移动机器人的动力学模型与系统约束，为算法设计提供了坚实的数学模型基础。同时，论文对相关的全局与局部路径规划研究进行了全面的综述，清晰定位了本工作在学术发展脉络中的位置。这些内容为读者深入理解研究问题和方法的创新性提供了丰富的背景信息。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问