本研究报告介绍由Hongyang Zhao、Yanan Guo、Xingdong Li、Yi Liu和Jing Jin团队发表在《IEEE Internet of Things Journal》2025年1月刊上的重要研究成果。该研究团队分别来自中国东北林业大学机电工程学院(College of Mechanical and Electrical Engineering, Northeast Forestry University)和哈尔滨工业大学控制科学与工程系(Department of Control Science and Engineering, Harbin Institute of Technology)。
随着物联网和智能机器人技术的快速发展,移动机器人在资源勘探、货物配送、医疗救援等复杂场景中的应用日益广泛。然而,在动态不可预测环境中确保机器人高效安全导航仍面临重大挑战。传统路径规划方法分为两大类:针对完全已知环境中静态障碍物的离线全局规划,以及针对部分已知环境中动态障碍物的在线局部规划。这两类方法各有局限:前者无法适应环境动态变化,后者难以保证全局路径最优性。
为解决这些问题,研究者提出了一个集成的分层路径规划框架,旨在实现三大目标:(1)在静态环境中快速规划无碰撞、最短且最安全的路径;(2)准确处理移动机器人操作环境中的不确定性;(3)有效整合离线全局路径规划与在线局部路径规划,确保全局最优性的同时精确避开动态障碍物。
研究团队提出了一种创新的三层控制框架: - 第一层:采用改进灰狼优化算法(Improved Gray Wolf Optimization, IGWO)进行全局路径规划。IGWO在传统GWO基础上引入了维度学习狩猎(Dimension Learning Hunting, DLH)策略,通过让个体狼从邻域学习并探索新位置,显著提高了收敛速度和解的多样性。
第二层:使用纯追踪(Pure Pursuit)控制算法进行轨迹跟踪,通过动态计算前瞻距离来调整机器人的转向,确保对规划路径的高精度跟踪。
第三层:基于深度强化学习(Deep Reinforcement Learning, DRL)的局部动态避障策略,采用深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法实现环境适应性控制。
IGWO算法的创新体现在多个方面: 1. 初始化:在搜索空间内随机分布狼群位置,每个位置代表路径点的潜在解。 2. 适应度评估:设计包含障碍物成本和燃料成本的复合成本函数,对单机器人和多机器人系统分别优化。 3. 位置更新:同时采用传统GWO策略和DLH策略生成两个候选解,通过多邻域学习提高多样性。 4. 迭代优化:通过100次迭代、50个个体群的优化过程,平衡路径长度与安全性的关系。
实验表明,在相同条件下,IGWO相较于PSO、GWO-MP和GWO-CS等算法,路径长度分别缩短约10.15%、4.01%和2.27%,适应度值降低4.78%-13.48%,碰撞次数显著减少。
研究提出了一个基于距离阈值的自适应切换机制: - 默认状态下采用纯追踪控制跟踪全局路径 - 当检测到障碍物距离小于阈值(dthreshold=0.2m)时,切换至DRL控制 - 避障后,当与路径点的距离小于安全边界(dclear=0.1m)时,切换回纯追踪控制
这种机制确保了在维持全局路径最优性的同时,能够实时响应环境变化。仿真显示,在突然出现障碍物的情况下,混合策略能有效调整路径,速度、加速度和角速度曲线表现出适度的波动,反映了系统的动态响应能力。
DRL系统采用DDPG算法框架,包含几个关键创新: 1. 网络结构:Actor网络采用28维输入(包括目标距离、角度、速度和测距仪状态),三层全连接(300-600-600神经元),输出为线速度和角速度。 2. 奖励函数:复合奖励包含距离奖励、安全间隙奖励、速度奖励和到达奖励,通过权重调整平衡不同目标。 3. 训练策略:使用迁移学习(Transfer Learning)方法,先在简单静态环境中训练,再逐步过渡到含动态障碍的复杂环境。这种方法显著提高了训练效率和最终性能。
研究设计了8种不同复杂度的测试场景(单机器人4种,多机器人4种),关键发现包括:
采用搭载全向轮和激光雷达的实体机器人,在6m×6m的实际环境中验证:
该研究的主要科学贡献体现在三个方面:
方法论创新:提出首个将全局最优路径规划与动态避障相结合的分层控制框架,为解决”全局优化与局部适应”这一长期矛盾提供了新思路。IGWO-DLH算法在收敛速度和路径质量上表现优异,Friedman检验显示其在多个指标上显著优于对比算法(p<0.05)。
技术整合:通过纯追踪与DRL的混合控制策略,实现了”全局引导、局部自主”的导航模式。实验证明这种策略比单一NMPC方法路径长度缩短15.7%,避障成功率提高22%。
应用价值:研究成果特别适用于物流仓储、灾害救援等动态复杂环境,其中多机器人实验展示了良好的系统扩展性。迁移学习的应用使DRL训练效率提升40%,为实际部署提供了便利。
本研究具有以下几个显著特点:
算法创新:IGWO-DLH通过维度学习策略解决了传统进化算法易陷入局部最优的问题,在标准测试函数上收敛速度提升35%。
系统整合:首次实现了基于距离阈值的自主切换机制,平衡了计算效率与安全性,切换延迟控制在0.1s内。
全面验证:通过7种对比算法、8个仿真场景和4类物理实验的系统验证,提供充分证据链。特别是多机器人在突发障碍下的协同表现,展现了方案的鲁棒性。
实用设计:考虑到实际部署需求,采用ROS melodic和Gazebo 9搭建仿真环境,与实体机器人(Jetson Nano+STM32)无缝衔接,降低了应用门槛。
该研究的代码和实验数据已开源,为后续研究提供了宝贵基础。团队建议未来工作可探索更复杂的多目标优化成本函数,以及基于视觉的DRL状态表示,进一步提升系统在完全未知环境中的适应性。