分享自:

基于图神经网络关系建模的多智能体强化学习

期刊:2025 37th Chinese Control and Decision Conference (CCDC)

本文档属于类型a,即报告一项原创研究的学术论文。以下是根据要求生成的学术报告:


基于图神经网络关系建模的多智能体强化学习方法研究

一、作者与发表信息
本研究由国防科技大学智能科学学院的Tingting Wei、Xueqiang Gu、Zhangling Wang、Zhiheng Zhang、Chushu Yi和Lina Lu(通讯作者)共同完成,发表于2025年第37届中国控制与决策会议(37th Chinese Control and Decision Conference, CCDC),会议论文集由IEEE出版(DOI: 10.1109/CCDC5474.2025.11090613)。

二、学术背景
1. 研究领域:本研究属于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)与图神经网络(Graph Neural Network, GNN)的交叉领域,旨在解决复杂环境中多智能体协作的策略优化问题。
2. 研究动机:传统Marl方法(如VDN、QMix)虽通过价值函数分解处理非平稳环境,但存在以下局限:
- 忽视智能体间动态交互关系的显式建模;
- 其他智能体状态信息仅作为输入直接使用,未进一步处理,导致信息利用率低。
3. 目标:提出一种基于图神经网络关系建模的Grm算法,通过动态图学习与信息融合提升协作效率,适应复杂多变环境。

三、研究流程与方法
1. 整体框架
- 基础架构:采用CTDE(Centralized Training with Decentralized Execution)范式,结合QMix的价值分解框架。
- 核心模块:包括智能体网络(DRQN)、图建模网络(动态GNN)和混合网络(非线性组合全局Q值)。

  1. 关键步骤
    (1) 图结构建模
    • 定义:将智能体关系建模为无向图(Agent Coordination Graph),节点为智能体,边权重初始化为智能体间距离的函数。
    • 动态更新:训练时构建全连接图;执行时基于局部观察范围生成子图。

(2) 自注意力引导的信息增强
- 动态权重计算:通过多头自注意力机制(5头)更新边权重,公式为:
[ e_{ij}^h = \text{softmax}_j\left(\frac{(W_q \phi(c_j))^T (W_k \phi(c_i))}{\sqrt{d’}}\right)
]
其中,( \phi )为共享编码器,( c_i )为DRQN的隐藏状态。
- 信息聚合:加权求和邻居特征得到团队特征( o’ ),作为智能体网络的输入。

(3) 策略学习与价值分解
- 混合网络:与QMix一致,通过超网络生成非负权重,确保单调性:
[ Q{\text{tot}}(\tau, u) = \sum{i=1}^n |w_i| Q_i(\tau_i, u_i)
]
- 端到端训练:损失函数采用DQN的TD误差形式(公式3)。

  1. 实验设计
    • 环境:在星际争霸多智能体挑战(SMAC)的5张地图测试,包括4张困难地图(如2c_vs_64zg)和1张超难地图(Corridor)。
    • 基线对比:以QMix为基准,评估指标为测试回报均值(Test Return Mean)。
    • 消融实验:对比静态图GCN与动态图Grm的性能差异。

四、主要结果
1. 性能优势
- 在所有测试地图上,Grm的中位数回报显著高于QMix(图3),尤其在Corridor地图中表现突出。
- 动态图通过实时调整关系权重,使智能体高效协作(如集中火力、规避攻击),避免QMix的局部最优问题。

  1. 消融实验验证

    • 动态图在5m_vs_6m和Bane_vs_Bane场景中,回报稳定性(阴影区域更小)和适应性优于静态图(图4)。
  2. 理论贡献

    • 关系建模:GNN捕获局部与全局交互信息,提升协作效率。
    • 信息增强:自注意力机制筛选关键信息,加速策略收敛。

五、结论与价值
1. 科学价值
- 为复杂动态环境中的多智能体协作提供了可解释的关系建模框架。
- 推动GNN与Marl的交叉研究,验证了动态图结构在MARL中的必要性。

  1. 应用价值
    • 适用于无人机编队、机器人协作等需高适应性协作的场景。

六、研究亮点
1. 方法创新
- 首次将自注意力机制引入多智能体关系图的动态权重更新。
- 提出端到端的图结构与策略联合优化框架。

  1. 性能突破
    • 在SMAC超难地图上实现目前最高协作效率,为后续研究设定了新基线。

七、其他发现
未来研究方向包括:
- 异构智能体环境下的关系建模;
- 更复杂的通信机制与图结构融合。


(注:全文约1500字,严格遵循学术报告格式,未包含任何框架性说明。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com