该文档属于类型a,即报告了一项单篇原创研究。以下是针对该研究的学术报告:
一、主要作者与机构
本研究由Jiayi Xu、Fei Yuan、Wei Weng、Junjiang Zhong、Yanan Li、Libing Chen和Baihua Chen共同完成。作者分别来自厦门理工学院计算机与信息工程学院、厦门大学信息科学与技术学院、厦门理工学院福建省模式识别与图像理解重点实验室、厦门理工学院数学与统计学院以及中国科学院城市环境研究所。研究于2025年4月提交至期刊《Knowledge-Based Systems》。
二、学术背景
本研究属于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)领域,旨在解决多智能体协作中的效率问题。现有分组算法存在两个主要问题:一是组内智能体采用相似策略,难以执行个体最优动作;二是在胜率较低时,智能体倾向于学习“逃避策略”,导致“懒惰”智能体的出现,从而降低协作效率并可能导致任务失败。为了解决这些问题,本研究提出了一种三重奖励框架(Triple Rewards Framework, TRFMARL),结合个体奖励、团队奖励和组奖励,以最大化每个智能体的收益以及所有智能体联合动作的收益。
三、研究流程
1. 问题定义与框架设计
- 研究首先分析了现有分组算法的问题,提出了一种新的三重奖励框架,包括个体奖励机制、团队奖励机制和组奖励机制。
- 个体奖励机制通过最大化个体智能体对外部状态的影响,防止其在稀疏奖励环境中表现出懒惰行为。
- 团队奖励机制通过计算联合动作对外部状态的影响,最大化团队的整体影响。
- 组奖励机制通过分组算法(如GOMARL)计算组内协作的奖励。
算法实现
实验设计
数据分析
四、主要结果
1. 算法性能
- TRFMARL在所有SMAC地图上均表现出色,尤其在困难和超困难任务中,胜率比基准算法高出20%。
- 在3s_vs_5z地图上,TRFMARL与QMIX均表现出较高的收敛速度和接近100%的最终胜率。
- 在5m_vs_6m地图上,TRFMARL通过个体奖励机制防止了懒惰智能体的出现,并实现了较高的胜率。
- 在6h_vs_8z地图上,TRFMARL通过学习复杂策略(如保持队形和攻击远处敌人)显著提高了胜率。
消融实验结果
敏感性分析
五、结论
本研究提出的TRFMARL算法通过三重奖励框架有效解决了多智能体协作中的效率问题。实验结果表明,该算法在复杂任务和稀疏奖励环境中表现出色,具有较高的科学价值和实际应用潜力。未来的研究方向包括基于Shapley值理论的分组方法以及超参数β1和β2的自动优化。
六、研究亮点
1. 创新性:首次将个体奖励、团队奖励和组奖励结合应用于多智能体强化学习。
2. 性能优越:在多个SMAC地图上,TRFMARL的胜率比基准算法高出20%。
3. 实用性:通过防止懒惰智能体的出现和最大化团队影响,显著提高了多智能体协作的效率。
七、其他有价值的内容
- 研究提供了详细的实验数据和消融分析,为后续研究提供了重要参考。
- 算法的实现代码已开源,便于其他研究者复现和改进。