分享自:

基于扩散模型的多智能体离线学习框架

期刊:38th conference on neural information processing systems (NeurIPS 2024)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多智能体离线强化学习的新框架:基于扩散模型的MADiff

作者及机构
本研究的核心团队由来自上海交通大学(Shanghai Jiao Tong University)、字节跳动(ByteDance)和斯坦福大学(Stanford University)的研究人员组成。第一作者为Zhengbang Zhu,通讯作者为Weinan Zhang。该研究发表于第38届神经信息处理系统会议(NeurIPS 2024)。

学术背景
研究领域为离线强化学习(Offline Reinforcement Learning, RL),尤其是多智能体离线学习(Multi-Agent Offline Learning, MAL)的挑战性问题。传统离线RL方法(如Q-learning)在单智能体任务中因外推误差(extrapolation errors)表现受限,而监督学习方法受模型表达能力限制。扩散模型(Diffusion Models, DMs)在单智能体任务中展现出潜力,但其在多智能体场景中的应用尚未明确。本研究旨在解决多智能体协作中的复杂交互问题,提出首个基于扩散模型的框架MADiff,兼具分散策略(decentralized policy)和集中控制(centralized controller)功能。

研究流程与方法
1. 问题建模
- 研究将多智能体任务建模为部分可观测的协同马尔可夫决策过程(Dec-POMDP),定义状态空间(state space)、动作空间(action space)和局部观测(local observation)。
- 通过扩散模型学习回报条件化的轨迹生成模型,输入为带奖励标签的多智能体交互数据集。

  1. 模型架构

    • 注意力机制扩散模型:采用U-Net结构,每个智能体的解码器层前加入跨智能体的注意力模块(attention mechanism),动态建模智能体间的交互权重。
    • 参数共享:智能体共享主干网络参数以减少计算量,同时通过注意力机制保留个体差异性。
    • 逆动力学模型(Inverse Dynamics Model):将生成的状态轨迹转换为可执行动作。
  2. 训练与推理

    • 集中训练:联合优化所有智能体的轨迹分布,损失函数包括扩散模型的去噪损失和逆动力学模型的预测损失(公式6)。
    • 分散执行:每个智能体基于局部观测生成自身及队友的轨迹,实现无通信的协作。
    • 历史条件生成:支持基于历史轨迹的长期规划,提升生成一致性。
  3. 实验设计

    • 任务与数据集:覆盖三类基准环境:
      • 多智能体粒子环境(MPE):包括Spread(覆盖地标)、Tag(追捕)和World(复杂捕食)任务,使用四种质量的数据集(expert, medium-replay, medium, random)。
      • 多智能体Mujoco(MA Mujoco):如2HalfCheetah、4Ant等机器人控制任务,数据集分为good/medium/poor。
      • 星际争霸多智能体挑战(SMAC):如3m、2s3z等地图,测试异构团队协作能力。
    • 基线对比:包括MA-ICQ、MA-CQL等离线RL算法和MADT(基于Transformer的序列建模方法)。

主要结果
1. 性能优势
- 在MPE的Spread任务中,MADiff在expert数据集上的得分为116.7(满分120),显著优于MA-ICQ(104.0)和OMAR(114.9)。
- 在SMAC的3m地图中,MADiff的胜率达19.9/20(good数据集),接近完美表现。

  1. 队友建模能力

    • 可视化实验显示,分散执行时MADiff能动态修正对队友行为的预测(图2)。例如,在Spread任务中,智能体通过注意力机制调整自身目标以保持全局一致性。
    • 定量分析表明,计划轨迹的一致性比率(consistent ratio)在任务中期达到90%以上(图2右)。
  2. 轨迹预测任务

    • 在NBA球员轨迹预测中,MADiff的平均位移误差(ADE)为7.92,显著低于Baller2vec++(15.15),且生成轨迹更平滑(图10)。

结论与价值
1. 科学意义
- 首次将扩散模型应用于多智能体离线学习,提出注意力驱动的跨智能体协调机制,解决了传统方法的外推误差和模型表达能力限制。
- 统一了分散策略、集中控制、队友建模和轨迹预测四大功能,为复杂多智能体系统的离线训练提供了通用框架。

  1. 应用价值
    • 适用于机器人协作、游戏AI等需离线学习的场景,尤其在数据稀缺或交互成本高的任务中表现突出。
    • 历史条件生成功能可扩展至长期规划任务(如自动驾驶)。

研究亮点
1. 方法创新
- 注意力扩散模型:通过 latent embedding 的交互实现动态权重学习,避免固定顺序拼接导致的对称性破坏。
- 无额外成本的队友建模:分散执行时自然生成队友轨迹,无需额外监督信号。

  1. 实验广度

    • 覆盖从低维粒子环境到高维机器人控制的多样化任务,验证了框架的泛化能力。
  2. 局限性

    • 智能体数量增加时计算效率下降(如超过8个智能体);
    • 在高度随机环境中(如SMACv2的随机初始位置)性能略逊于Q-learning方法。

其他价值
- 开源代码和数据集(如NBA轨迹数据)为后续研究提供了基准工具。
- 提出的分类器无关引导(classifier-free guidance)和低温采样(low-temperature sampling)技术可迁移至其他生成任务。


以上内容完整涵盖了研究的背景、方法、结果与意义,并突出了其创新性和实际应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com