基于图神经网络关系建模的多智能体强化学习

分享自：
基于图神经网络关系建模的多智能体强化学习

期刊:2025 37th Chinese Control and Decision Conference (CCDC)
本文档属于类型a，即报告一项原创研究的学术论文。以下是根据要求生成的学术报告：
基于图神经网络关系建模的多智能体强化学习方法研究
一、作者与发表信息
 本研究由国防科技大学智能科学学院的Tingting Wei、Xueqiang Gu、Zhangling Wang、Zhiheng Zhang、Chushu Yi和Lina Lu（通讯作者）共同完成，发表于2025年第37届中国控制与决策会议（37th Chinese Control and Decision Conference, CCDC），会议论文集由IEEE出版（DOI: 10.1109/CCDC5474.2025.11090613）。
二、学术背景
 1. 研究领域：本研究属于多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）与图神经网络（Graph Neural Network, GNN）的交叉领域，旨在解决复杂环境中多智能体协作的策略优化问题。
 2. 研究动机：传统Marl方法（如VDN、QMix）虽通过价值函数分解处理非平稳环境，但存在以下局限：
 - 忽视智能体间动态交互关系的显式建模；
 - 其他智能体状态信息仅作为输入直接使用，未进一步处理，导致信息利用率低。
 3. 目标：提出一种基于图神经网络关系建模的Grm算法，通过动态图学习与信息融合提升协作效率，适应复杂多变环境。
三、研究流程与方法
 1. 整体框架：
 - 基础架构：采用CTDE（Centralized Training with Decentralized Execution）范式，结合QMix的价值分解框架。
 - 核心模块：包括智能体网络（DRQN）、图建模网络（动态GNN）和混合网络（非线性组合全局Q值）。
关键步骤：
 (1) 图结构建模
 定义：将智能体关系建模为无向图（Agent Coordination Graph），节点为智能体，边权重初始化为智能体间距离的函数。
 
动态更新：训练时构建全连接图；执行时基于局部观察范围生成子图。
 
(2) 自注意力引导的信息增强
 - 动态权重计算：通过多头自注意力机制（5头）更新边权重，公式为：
 [ e_{ij}^h = \text{softmax}_j\left(\frac{(W_q \phi(c_j))^T (W_k \phi(c_i))}{\sqrt{d’}}\right)
 ]
 其中，( \phi )为共享编码器，( c_i )为DRQN的隐藏状态。
 - 信息聚合：加权求和邻居特征得到团队特征( o’ )，作为智能体网络的输入。
(3) 策略学习与价值分解
 - 混合网络：与QMix一致，通过超网络生成非负权重，确保单调性：
 [ Q{\text{tot}}(\tau, u) = \sum{i=1}^n |w_i| Q_i(\tau_i, u_i)
 ]
 - 端到端训练：损失函数采用DQN的TD误差形式（公式3）。
实验设计
 环境：在星际争霸多智能体挑战（SMAC）的5张地图测试，包括4张困难地图（如2c_vs_64zg）和1张超难地图（Corridor）。
 
基线对比：以QMix为基准，评估指标为测试回报均值（Test Return Mean）。
 
消融实验：对比静态图GCN与动态图Grm的性能差异。
 
四、主要结果
 1. 性能优势：
 - 在所有测试地图上，Grm的中位数回报显著高于QMix（图3），尤其在Corridor地图中表现突出。
 - 动态图通过实时调整关系权重，使智能体高效协作（如集中火力、规避攻击），避免QMix的局部最优问题。
消融实验验证：
动态图在5m_vs_6m和Bane_vs_Bane场景中，回报稳定性（阴影区域更小）和适应性优于静态图（图4）。
 
理论贡献：
关系建模：GNN捕获局部与全局交互信息，提升协作效率。
 
信息增强：自注意力机制筛选关键信息，加速策略收敛。
 
五、结论与价值
 1. 科学价值：
 - 为复杂动态环境中的多智能体协作提供了可解释的关系建模框架。
 - 推动GNN与Marl的交叉研究，验证了动态图结构在MARL中的必要性。
应用价值：
 适用于无人机编队、机器人协作等需高适应性协作的场景。
 
六、研究亮点
 1. 方法创新：
 - 首次将自注意力机制引入多智能体关系图的动态权重更新。
 - 提出端到端的图结构与策略联合优化框架。
性能突破：
 在SMAC超难地图上实现目前最高协作效率，为后续研究设定了新基线。
 
七、其他发现
 未来研究方向包括：
 - 异构智能体环境下的关系建模；
 - 更复杂的通信机制与图结构融合。
（注：全文约1500字，严格遵循学术报告格式，未包含任何框架性说明。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问