分享自:

基于空间分组课程学习的多智能体路径规划方法

期刊:Association for the Advancement of Artificial Intelligence

本文档报告了一项名为“PARCEL: Partitioned Attention-based Reverse Curricula for Enhanced Learning”的原创性研究。以下是为该研究撰写的学术报告。

基于空间分组课程学习的多智能体路径规划研究

一、 作者、机构及发表信息

本研究的核心作者为 Thomy Phan 与 Sven Koenig。Thomy Phan 隶属于德国拜罗伊特大学 (University of Bayreuth, Germany)。Sven Koenig 则同时供职于美国加州大学尔湾分校 (University of California, Irvine, USA) 和瑞典厄勒布鲁大学 (Örebro University, Sweden)。本研究以论文形式发表在第40届人工智能促进协会人工智能会议 (The Fortieth AAAI Conference on Artificial Intelligence, AAAI-26) 的会议论文集中,是该领域顶级的学术会议之一。

二、 学术研究背景与目标

本研究属于人工智能领域,具体聚焦于多智能体强化学习 (Multi-Agent Reinforcement Learning, MARL) 和多智能体路径规划 (Multi-Agent Path Finding, MAPF) 的交叉方向。MAPF 旨在为多个智能体寻找无冲突且成本最小的路径,在仓储物流、交通管理等领域有广泛应用。

研究者开展此项工作的主要动因在于当前基于强化学习的 MAPF 方法存在明显局限。虽然强化学习有潜力学习到去中心化且泛化性强的策略,但智能体间的空间协调(如在走廊、瓶颈处同步移动)是一个核心挑战。现有主流方法大多采用“独立训练 + 临时措施”的模式。具体而言,这些方法让每个智能体独立学习,然后通过临时性(ad hoc)的机制,如重新规划或预设通信协议,来协调冲突。这种模式存在三大问题:1. 方法复杂性高,引入了额外机制;2. 通常需要智能体在决策时无法获取的额外信息(如全局地图占用状态、广播通信信道),违背了强化学习设定下的局部可观测性假设;3. 最终导致方法的泛化能力、有效性和样本效率受限。另一方面,虽然存在“集中训练去中心化执行” (Centralized Training for Decentralized Execution, CTDE) 这种更原则性的协调学习范式,但在 MAPF 这类高度约束的任务中,其扩展性较差。

因此,本研究旨在弥合“完全独立训练”与“完全集中训练”之间的鸿沟。其主要目标是为 RL-based MAPF 提出一种新的、无需临时措施的学习框架,该框架应具备更高的样本效率(即用更少的数据学到有效策略)、更好的训练效果(最终达到更高的成功率),并能产生泛化能力更强的策略。

三、 研究方法与详细流程

本研究提出了一种名为 PARCEL 的新算法框架。PARCEL 的核心思想是通过一种“空间分组”和“反向课程学习”相结合的方式,实现智能体间的“按需协调学习”。其工作流程主要包含三个核心环节:基于空间分组的预处理、掩码注意力评论家学习、以及去中心化策略学习。整个训练过程如算法1所示,在多个阶段循环进行。

第一步:基于课程学习的空间分组(预处理) 在每一轮训练开始前,算法首先会确定当前课程学习的“阶段”,这由一个“分配半径” (r_alloc) 定义。对于地图上的每个智能体 i,算法会以其起始位置为中心、r_alloc 为半径,在地图上划定一个“边界区域” (Gi)。这个区域定义了在当前训练阶段,智能体 i 的目标点会被随机放置的范围(确保在 r_alloc 步内可达)。 分组的关键在于判断智能体边界区域是否重叠。如果两个智能体 i 和 j 的边界区域 Gi 与 Gj 有交集(即 Gi ∩ Gj ≠ ∅),则认为它们在未来路径上存在潜在的冲突风险,必须被分到同一个“空间组”中进行联合训练。反之,如果区域不重叠,则它们可以在当前阶段被视为独立个体进行训练(尽管训练在技术上仍可能并行处理,但学习目标无耦合)。通过这种基于空间邻接关系的动态分组,PARCEL 将一个大规模的、复杂的多智能体协调问题,分解为多个较小、较易处理的子群协调问题。

第二步:掩码注意力评论家 (Masked Attention-based Critics) 学习 为了在训练中有效利用第一步产生的分组信息,PARCEL 设计了一种特殊的评论家网络结构。该方法不直接让所有智能体共享一个集中的评论家,也不让它们完全独立,而是采用了一个基于自注意力机制的评论家网络,并通过“分组掩码”来精确控制信息流。 具体而言,对于每个智能体,其评论家网络接收所有智能体的动作-观察历史作为输入。但在计算注意力权重时,会引入一个对称的分组掩码矩阵 M。如果两个智能体 i 和 j 属于同一个空间组,则 M_ij 被设为一个常数(如0),允许它们之间相互关注;如果不属于同一组,则 M_ij 被设为负无穷大 (-∞),这使得在 softmax 计算后,来自其他组的智能体的信息权重为0。这种“掩码注意力”机制确保了每个智能体的价值估计只依赖于同组内其他智能体的信息,实现了“部分独立”的集中训练。评论家网络通过最小化时序差分误差来学习(公式5),其目标是准确估计在考虑组内协调的情况下,每个智能体未来所能获得的累积奖励。

第三步:去中心化策略(执行器)学习 在拥有了能够评估组内联合行动价值的评论家之后,PARCEL 使用标准的演员-评论家方法(特别是近端策略优化 PPO)来训练每个智能体独立的策略网络(演员)。策略网络仅以该智能体自身的局部观察历史为输入,输出其动作概率分布。评论家提供的优势函数被用于计算策略梯度,从而更新演员网络参数。关键在于,虽然训练时利用了组内的全局信息(通过掩码注意力评论家),但最终学到的策略网络在执行时是完全去中心化的,仅需要局部观测,无需任何临时的重新规划或通信机制。 第四步:课程推进 整个训练过程采用了一种“反向课程学习”策略,该策略继承自研究者之前的工作 CACTUS。其基本思想是:从简单的任务开始(r_alloc 较小,智能体目标很近,分组简单),随着策略性能的提升(以平均完成率等指标衡量),逐步增大 r_alloc,使得边界区域扩大,目标点变得更远,智能体分组也变得更庞大和复杂。当 r_alloc 足够大,覆盖整个地图时,所有智能体最终会合并为一个大的组,此时训练的就是一个完全协调的全局策略。这种课程设计极大地提升了学习过程的样本效率和稳定性。

实验设计与评估流程 为了全面评估 PARCEL 的性能,研究者设计了一系列对照实验,流程如下: 1. 实验对象(基线算法):除了 PARCEL 本身,研究者复现或实现了多个当前最先进的 RL-based MAPF 方法作为基线,包括 CACTUS(使用 CTDE 和价值分解)、PRIMAL(使用模仿学习和奖励塑形)、SCRIMP(使用注意力通信)和 CostTracer(使用观察塑形)。为了公平比较学习算法本身的空间协调能力,所有基线方法均移除了其依赖的临时性启发式搜索模块。 2. 实验一:简单协调任务:在非空间性的“猎鹿博弈”矩阵游戏和一个小的 3x3 网格 MAPF 任务中,测试各算法架构学习协调行为的基本能力。这验证了 PARCEL 的核心注意力机制在协调学习上的有效性。 3. 实验二:训练样本效率:在更大规模的标准 MAPF 基准地图(随机地图和仓库地图)上,使用 16 和 64 个智能体进行训练。记录并比较各算法在训练过程中,智能体平均完成率随训练回合数增加的进步速度。这用于评估 PARCEL 的样本效率。 4. 实验三:泛化能力测试:将在随机地图上训练好的策略(使用 64 个智能体),直接迁移到未见过的、结构不同的新地图(游戏地图和城市地图)上进行测试,并且测试的智能体数量也增加(>64)。评估指标包括完成率和平均旅行时间。这用于检验学得策略的泛化性和可扩展性。 5. 实验四:消融研究:通过创建 PARCEL 的变体来验证其各个组件的必要性,包括:a) 移除分组掩码,让注意力关注所有智能体;b) 用线性分组机制(如 VAST)替代注意力机制;c) 完全独立的 PPO 训练(无任何协调机制)。这些对照实验旨在分离出空间分组和注意力机制各自贡献。

四、 主要研究结果及其逻辑关联

1. 简单协调任务结果:在“猎鹿博弈”中,PARCEL 所使用的注意力评论家架构获得了最高的“合作猎鹿”率,显著优于 SCRIMP 使用的注意力演员架构和 CACTUS 使用的集中式评论家。完全独立的 PPO 方法表现最差。在小型 MAPF 任务中,除 PRIMAL 外,大多数方法都能学到一定的协调策略。这一结果首先证明了 PARCEL 的核心学习架构在基础协调任务上是有效的,为后续在大规模复杂场景中的测试奠定了基础。

2. 训练样本效率结果:在随机和仓库地图上,无论是 16 还是 64 个智能体的设定下,PARCEL 的训练进度(完成率提升速度)都显著快于所有其他基线算法,展现了最佳的样本效率。CACTUS 次之,但在 64 智能体场景下其性能最终未能追上 PARCEL,且方差较大。CostTracer 和 PRIMAL 进展缓慢,SCRIMP 则几乎无法取得有效进展。这一结果清晰地表明,PARCEL 所提出的“空间分组+掩码注意力”框架,能够更高效地解决大规模 MAPF 中的协调学习难题,其效率远超依赖临时措施或简单 CTDE 的方法。

3. 泛化测试结果:在未见过的、结构复杂的 den520d(游戏)和 Paris-1-256(城市)地图上,PARCEL 学到的策略展现出了最强的泛化能力。其测试完成率最高,平均旅行时间最短。CACTUS 是表现第二好的学习方法,但其性能波动较大。其他基线方法(PRIMAL, SCRIMP, CostTracer)的测试完成率均未超过 50%,表现不佳。与基于搜索的非学习算法 Lacam* 相比,PARCEL 的成功率相当,但路径质量(旅行时间)略有差距,这源于学习策略的随机性。此结果证实,PARCEL 学到的策略不仅训练效率高,而且能够适应新的环境布局和更大的智能体规模,满足了去中心化策略对泛化性的核心要求。

4. 消融研究结果:在随机地图上对 PARCEL 进行消融实验的结果(图7)至关重要。结果显示:a) 原始 PARCEL 效果最好b) 移除分组掩码后,学习效率下降且不稳定,证明了空间分组对于管理学习复杂性、避免不必要干扰的关键作用;c) 将注意力机制替换为线性分组机制后,性能也显著下降,证明了自注意力机制在灵活建模组内智能体间复杂依赖关系方面的优势;d) 完全独立的 PPO 几乎无法学习到有效的协调策略。这些结果环环相扣,共同论证了 PARCEL 框架中两个核心设计(空间分组和掩码注意力)缺一不可,它们共同赋予了去中心化策略以强大的空间协调能力。

五、 研究结论与价值

本研究得出结论:提出的 PARCEL 算法为基于强化学习的多智能体路径规划提供了一种高效且原则性的新范式。它通过动态的空间分组,仅在必要时(即智能体路径可能冲突时)对智能体进行联合训练,巧妙地平衡了独立训练的可扩展性和集中训练的有效协调能力。结合反向课程学习,该方法能够从简单任务逐步过渡到复杂任务,最终学习到可在全局范围内协调的、完全去中心化的策略。

该研究的科学价值在于:1) 提出并验证了“空间分组课程学习”这一概念,为多智能体强化学习,特别是需要在物理空间中进行协调的问题,提供了一个新的通用性框架思路;2) 设计并实现了掩码注意力评论家这一具体技术,将分组信息无缝集成到现代 MARL 架构中;3) 通过严格的实验,揭示了现有依赖临时措施的 RL-based MAPF 方法在样本效率和泛化性上的根本局限性,并提出了一个更优的解决方案。

应用价值在于:PARCEL 学到的策略是纯粹基于局部感知的,无需全局通信或中央规划器,这更符合现实中机器人或自动驾驶车辆等自主系统的运行条件。该方法的高样本效率和强泛化能力,使其有望在实际的、动态变化的大规模多智能体系统中进行部署。

六、 研究亮点

  1. 核心创新性:首次将“空间邻接关系”作为动态分组的依据引入 MARL for MAPF,创造了“部分独立”的学习范式,是介于完全独立和完全集中训练之间的创新中间路径。
  2. 方法简洁有效:摆脱了对临时性措施(如重新规划、特定通信协议)的依赖,完全在强化学习的标准框架(随机博弈)内解决问题,使方法更简洁、更原则化。
  3. 显著的性能优势:在多项对比实验中,PARCEL 在样本效率(训练速度)和泛化能力(测试表现)上均显著优于当前最先进的 RL-based MAPF 方法。
  4. 严谨的验证:通过系统的消融实验,清晰地证明了空间分组和注意力机制两个核心组件的必要性,增强了结论的可信度。

七、 其他有价值的内容

研究者指出了未来潜在的研究方向:1) 探索更紧致的边界区域定义,以进一步提高模块化程度;2) 研究非对称的分组掩码矩阵,以建模智能体间的单向依赖关系;3) 将该框架的思想迁移到其他 NP 难问题,如旅行商问题、混合整数线性规划或布尔可满足性问题。这些方向拓展了本工作的外延,显示了其潜在影响范围。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com