《多智能体协同路径规划综述》是由熊骏(南京邮电大学物联网学院)、张文博、熊智(南京航空航天大学自动化学院)、周峰、杨博(南京邮电大学物联网学院)合作完成,发表于《系统仿真学报》(Journal of System Simulation),网络首发时间为2025年10月20日。这篇综述论文系统梳理了多智能体协同路径规划(Cooperative Multi-Agent Path Finding, Co-MAPF)的研究现状、核心算法、技术挑战及未来发展方向,为相关领域的研究者提供了全面的参考框架。
Co-MAPF是传统多智能体路径规划(Multi-Agent Path Finding, MAPF)的扩展,其核心目标不仅要求智能体在共享环境中规划无碰撞路径,还需通过主动协作优化整体任务执行效率。该问题在无人机编队、智能物流、智慧城市等领域具有广泛应用。传统MAPF主要关注路径可行性,而Co-MAPF进一步强调智能体间的协同机制,例如信息共享、动态任务分配和全局优化。
Co-MAPF问题可形式化为无向图搜索问题,其中智能体需从起点移动到目标点,同时满足任务协作约束。与MAPF相比,Co-MAPF的差异主要体现在:
- 协作方式:MAPF通过被动避碰实现路径规划,而Co-MAPF要求智能体主动调整行为以配合其他个体(如任务交接、编队保持)。
- 信息依赖:Co-MAPF依赖实时通信以实现协同决策,而MAPF仅需局部或全局环境信息。
- 应用场景:Co-MAPF适用于高动态、大规模场景(如无人机集群巡逻),而MAPF更适合静态或低交互环境(如仓储机器人调度)。
当前Co-MAPF的基准测试主要基于2D网格地图,常用数据集包括游戏地图(如《星际争霸》地形)、仓储物流地图(如ASPRILO平台)和随机生成地图。测试平台如MAPF.info和Moving AI Lab提供了标准化评估工具。
Co-MAPF的算法实现架构可分为三类:
- 集中式架构:由中央控制器统一计算路径,优势是全局优化能力强,但计算复杂度高,难以扩展至大规模系统。典型应用如小型无人机编队控制。
- 分布式架构:智能体基于局部信息自主决策,通过通信协商避免冲突,具有高容错性和可扩展性,但可能陷入局部次优解。适用于动态环境(如交通调度)。
- 混合式架构:结合集中式全局规划与分布式局部调整,平衡优化质量与实时性,但设计复杂度较高。例如,上层控制器分配初始路径,下层智能体根据环境变化动态修正。
作者将Co-MAPF算法分为四类,并详细分析了其特点与适用场景:
(1)基于采样的算法
- 核心方法:通过随机采样(如RRT*、PRM)探索路径空间,结合冲突检测与协同约束生成无碰撞路径。
- 改进方向:
- MA-RRT*:引入动态节点移除机制(MA-RRT*FN),降低内存消耗。
- 编队保持:MFM-RRT*结合人工势场(APF)减少编队形变。
- 能量感知:改进PRM算法,优化智能体的能量消耗约束。
- 优势:适用于高维复杂环境,支持并行计算。
(2)基于搜索的算法
- 核心方法:基于图搜索(如A*、CBS)在离散空间中寻找最优路径。
- 改进方向:
- 冲突导向搜索:CO-WHCA*通过动态窗口协调局部冲突。
- 多目标优化:TC-CBS算法处理多团队协作的帕累托最优解。
- 实时性优化:Real-time LACAM在毫秒级时间内生成部分路径。
- 优势:保证路径最优性,适合静态或低动态环境。
(3)基于智能优化的算法
- 核心方法:利用群体智能算法(如PSO、ACO、GA)优化路径集合。
- 改进方向:
- 协同遗传算法:DAC-GA通过异步通信降低开销。
- 混合优化:AFSA-PSO结合鱼群算法与PSO提升收敛速度。
- 信息素机制:改进ACO算法实现分布式协作。
- 优势:擅长处理非线性约束和多目标优化。
(4)基于学习的算法
- 传统强化学习:Q-learning结合动态奖励函数(如文献[57]),或通过迁移学习加速训练(如文献[60])。
- 深度强化学习:
- MADDPG:集中训练-分散执行框架,适用于动态避障(如文献[66])。
- 图神经网络:MACNS(文献[63])利用GNN实现同质化决策。
- 优势:适应未知环境,但依赖大量训练数据。
这篇综述不仅适合Co-MAPF领域的研究者参考,也为工业界解决多智能体协同问题提供了方法论支持。