混合环境中基于关系图学习的强化学习多智能体协作导航
多智能体混合环境协作导航研究:基于关系图学习的强化学习新方法
移动机器人技术正随着人工智能领域的发展迎来应用热潮,其中导航能力是移动机器人研究的核心热点之一。传统导航方法在面对动态环境、障碍物规避以及多机器人协作任务时,往往面临算法复杂度、计算资源消耗以及模型普适性的问题。针对这些问题,来自Central South University与Zhejiang University of Technology的研究团队提出了一种基于关系图注意力网络(Graph Attention Network, GAT)的新方法,称为GAR-CoNav,为混合环境中的多目标协作导航问题(Multi-Robot Cooperative Navigation Problem, MCNP)提供了新的解决方案。这篇发表在IEEE Transactions on Artificial Intelligence杂志上的文章,不仅提出了新模型,还通过一系列高复杂混合环境仿真实验证明了其先进性。
背景与研究意义
随着人工智能和机器人技术的日益成熟,多个机器人在动态混合环境中协同完成复杂任务的需求逐步被提出。MCNP旨在研究如何让多个机器人协作、避障并高效地导航至各自目标。这一问题的解决不仅对制造业、物流行业智能化提升具有直接意义,还能推动智能交通、公共安全和建筑巡检等不同场景的技术革新。
目前,MCNP的解决方案主要包括集中式方法和分布式方法。集中式方法依赖全局环境观测信息但计算资源开销巨大且不具扩展性;分布式方法则注重自治性,但由于环境非平稳性等问题,其协作效率和可靠性始终受限。此外,现有方法缺乏适应动态障碍物与多目标复杂环境的灵活性,特别是传统方法通常假设静态或预分配目标且不能动态分配任务。
鉴于上述挑战,作者通过集中训练去中心化执行的框架(Centralized Training and Decentralized Execution, CTDE),结合图注意力网络与强化学习方法,开发了一个可扩展且能够实现协作多目标导航的GAR-CoNav模型。
作者及出处
该论文由Wen Ou、Biao Luo、Xiaodong Xu、Yu Feng以及Yuqian Zhao合著,其中Biao Luo和Yu Feng为IEEE的高级会员(Senior Member, IEEE)。团队成员分别来自中央南大学自动化学院和浙江工业大学信息工程学院。论文于2024年8月在线发表,刊载在2025年1月出版的IEEE Transactions on Artificial Intelligence上。
方法与研究流程
研究架构及问题描述
作者将MCNP建模为分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP),提出了一种结合VO(Velocity Obstacle)编码与图结构的混合环境全局表示方法。整个研究流程分为以下几个部分:
1. 图表示的构建与连接规则:
通过图来表示混合环境,其中节点包括机器人、静态障碍物、动态障碍物和目标点,而边表示它们之间的交互关系。作者规定了以下连接规则:
- 机器人节点受所有其他节点的影响。
- 动态障碍物节点只受其他障碍节点影响。
- 静态障碍物及目标点节点不会被其他节点影响。
此规则设计确保图结构符合混合环境的动态交互特性,并防止机器人对动态障碍物表现出极端侵略性。
2. 特征编码与表示:
每个节点的特征被编码为特定的属性向量。例如,机器人节点编码包括位置、速度、半径及朝向等信息,而障碍物与目标点的特征还引入了VO锥体的边界向量表示,以捕捉导航中的潜在碰撞信息。这些特征被拼接得到稀疏矩阵,与邻接矩阵共同输入到图神经网络中。
3. 强化学习算法与奖励设计:
强化学习部分采用基于GAT的集中训练与去中心化执行框架。在此架构下:
- 图注意力网络(GAT): 探索节点之间的动态交互权重,每个节点聚合其他相关节点的信息生成新的状态表征。
- 双向门控循环单元(Bi-GRU): 对障碍物特征进行处理,用于捕获环境的序列动态变化。
- 奖励函数设计: 奖励设计中引入共享奖励和个体奖励,重点惩罚碰撞行为并鼓励协作到达目的地。这种奖励机制避免了传统方法对单一目标距离优化的局限性,从而促使更安全、更协作的导航策略。
实验与研究结果
本文通过在复杂仿真环境中的多组实验验证了GAR-CoNav模型的有效性,主要任务包括避障任务、遍历任务及覆盖任务。
1. 仿真环境及实验配置
实验中模拟环境包括混合障碍物(静态与动态障碍物)与多目标配置,允许机器人仅使用局部观察。典型场景如(3, 4, 3, 3)形式描述:3个机器人,4个静态障碍物,3个动态障碍物,3个目标点。
2. 避障性能测试
在避障实验中,GAR-CoNav展示了显著的性能提升。无论静态还是动态障碍物环境,模型均表现出更低的碰撞率(Collision Rate, Rc)与危险率(Danger Rate, Rd),且导航路径更平稳。对比传统的非全向性递归碰撞规避(Non-Holonomic ORCA, NH-ORCA)及RL-RVO方法,GAR-CoNav兼顾了路径效率以及更高的安全性。
3. 协作导航测试
在遍历任务与覆盖任务(保证所有目标都由机器人覆盖)中,GAR-CoNav展现了领先性能: - 均能够自主分配任务,显著提升成功率(Success Rate, Rs)。 - 支持动态实时调整目标分配,最大程度优化整体路径规划。
某些复杂场景下的轨迹展示还揭示了模型中多机器人间的合作性。例如,在一个高复杂障碍布置环境中,机器人自主避让资源冲突,优先考虑全局目标效用,为复杂的多目标导航问题提供了较优解。
研究意义与价值
科学价值:
GAR-CoNav突破了传统集中式或分布式导航系统在动态障碍避碰、任务分配灵活性及多代理协作性方面的瓶颈问题,同时验证了强化学习和图神经网络在复杂动态环境MCNP中的可行性。应用价值:
该研究成果可直接应用于多种实际场景中的机器人导航任务,例如仓储物流优化、无人机协作空中交通管理,以及城市交通优化中的多智能体行为规划。创新性亮点:
a) 将VO编码集成到图网络中进行动态环境建模;
b) 基于注意力机制的目标分配与信息聚合方法;
c) 综合奖励函数设计策略,兼顾局部避障与全局合作。
总结与未来展望
与传统方法或现有RL-RVO相比,GAR-CoNav在混合障碍环境和多目标协作任务中都表现出更优的性能和稳定性。在科学与工程应用层面,本文为解决动态环境中复杂合作导航问题提供了新的框架。然而,研究团队也指出GAR-CoNav在单目标场景以及从仿真到真实任务迁移上的效率提升仍需进一步探索。未来研究将集中于提升单任务效率和解决“Sim-to-Real”问题,通过进一步改进算法以适应更广泛的实际任务需求。