本文档属于类型a,即报告一项原创研究的学术论文。以下是根据要求生成的学术报告:
基于图神经网络关系建模的多智能体强化学习方法研究
一、作者与发表信息
本研究由国防科技大学智能科学学院的Tingting Wei、Xueqiang Gu、Zhangling Wang、Zhiheng Zhang、Chushu Yi和Lina Lu(通讯作者)共同完成,发表于2025年第37届中国控制与决策会议(37th Chinese Control and Decision Conference, CCDC),会议论文集由IEEE出版(DOI: 10.1109/CCDC5474.2025.11090613)。
二、学术背景
1. 研究领域:本研究属于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)与图神经网络(Graph Neural Network, GNN)的交叉领域,旨在解决复杂环境中多智能体协作的策略优化问题。
2. 研究动机:传统Marl方法(如VDN、QMix)虽通过价值函数分解处理非平稳环境,但存在以下局限:
- 忽视智能体间动态交互关系的显式建模;
- 其他智能体状态信息仅作为输入直接使用,未进一步处理,导致信息利用率低。
3. 目标:提出一种基于图神经网络关系建模的Grm算法,通过动态图学习与信息融合提升协作效率,适应复杂多变环境。
三、研究流程与方法
1. 整体框架:
- 基础架构:采用CTDE(Centralized Training with Decentralized Execution)范式,结合QMix的价值分解框架。
- 核心模块:包括智能体网络(DRQN)、图建模网络(动态GNN)和混合网络(非线性组合全局Q值)。
(2) 自注意力引导的信息增强
- 动态权重计算:通过多头自注意力机制(5头)更新边权重,公式为:
[ e_{ij}^h = \text{softmax}_j\left(\frac{(W_q \phi(c_j))^T (W_k \phi(c_i))}{\sqrt{d’}}\right)
]
其中,( \phi )为共享编码器,( c_i )为DRQN的隐藏状态。
- 信息聚合:加权求和邻居特征得到团队特征( o’ ),作为智能体网络的输入。
(3) 策略学习与价值分解
- 混合网络:与QMix一致,通过超网络生成非负权重,确保单调性:
[ Q{\text{tot}}(\tau, u) = \sum{i=1}^n |w_i| Q_i(\tau_i, u_i)
]
- 端到端训练:损失函数采用DQN的TD误差形式(公式3)。
四、主要结果
1. 性能优势:
- 在所有测试地图上,Grm的中位数回报显著高于QMix(图3),尤其在Corridor地图中表现突出。
- 动态图通过实时调整关系权重,使智能体高效协作(如集中火力、规避攻击),避免QMix的局部最优问题。
消融实验验证:
理论贡献:
五、结论与价值
1. 科学价值:
- 为复杂动态环境中的多智能体协作提供了可解释的关系建模框架。
- 推动GNN与Marl的交叉研究,验证了动态图结构在MARL中的必要性。
六、研究亮点
1. 方法创新:
- 首次将自注意力机制引入多智能体关系图的动态权重更新。
- 提出端到端的图结构与策略联合优化框架。
七、其他发现
未来研究方向包括:
- 异构智能体环境下的关系建模;
- 更复杂的通信机制与图结构融合。
(注:全文约1500字,严格遵循学术报告格式,未包含任何框架性说明。)