多智能体强化学习的三重奖励框架

分享自：
多智能体强化学习的三重奖励框架

期刊:Knowledge-Based Systems
该文档属于类型a，即报告了一项单篇原创研究。以下是针对该研究的学术报告：
一、主要作者与机构
 本研究由Jiayi Xu、Fei Yuan、Wei Weng、Junjiang Zhong、Yanan Li、Libing Chen和Baihua Chen共同完成。作者分别来自厦门理工学院计算机与信息工程学院、厦门大学信息科学与技术学院、厦门理工学院福建省模式识别与图像理解重点实验室、厦门理工学院数学与统计学院以及中国科学院城市环境研究所。研究于2025年4月提交至期刊《Knowledge-Based Systems》。
二、学术背景
 本研究属于多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）领域，旨在解决多智能体协作中的效率问题。现有分组算法存在两个主要问题：一是组内智能体采用相似策略，难以执行个体最优动作；二是在胜率较低时，智能体倾向于学习“逃避策略”，导致“懒惰”智能体的出现，从而降低协作效率并可能导致任务失败。为了解决这些问题，本研究提出了一种三重奖励框架（Triple Rewards Framework, TRFMARL），结合个体奖励、团队奖励和组奖励，以最大化每个智能体的收益以及所有智能体联合动作的收益。
三、研究流程
 1. 问题定义与框架设计
 - 研究首先分析了现有分组算法的问题，提出了一种新的三重奖励框架，包括个体奖励机制、团队奖励机制和组奖励机制。
 - 个体奖励机制通过最大化个体智能体对外部状态的影响，防止其在稀疏奖励环境中表现出懒惰行为。
 - 团队奖励机制通过计算联合动作对外部状态的影响，最大化团队的整体影响。
 - 组奖励机制通过分组算法（如GOMARL）计算组内协作的奖励。
算法实现
研究基于《星际争霸多智能体挑战（StarCraft Multi-Agent Challenge, SMAC）》基准测试，开发了TRFMARL算法。
 
算法包括自动分组模块、混合网络和外部状态转移模型。自动分组模块通过最大化全局回报动态划分组；混合网络通过组内动作值计算全局动作值；外部状态转移模型用于预测外部状态的转移。
 
个体奖励机制和团队奖励机制分别通过因果效应计算个体和团队的贡献。
 
实验设计
研究在多个SMAC地图上进行了实验，包括简单、困难和超困难任务。
 
比较了TRFMARL与GOMARL、LAIES、QMIX、SHAQ和AERIAL等基准算法的性能。
 
通过消融实验评估了三种奖励机制对算法性能的影响。
 
数据分析
实验数据包括胜率、收敛速度和训练时间。
 
通过敏感性分析评估了超参数β1和β2对算法性能的影响。
 
四、主要结果
 1. 算法性能
 - TRFMARL在所有SMAC地图上均表现出色，尤其在困难和超困难任务中，胜率比基准算法高出20%。
 - 在3s_vs_5z地图上，TRFMARL与QMIX均表现出较高的收敛速度和接近100%的最终胜率。
 - 在5m_vs_6m地图上，TRFMARL通过个体奖励机制防止了懒惰智能体的出现，并实现了较高的胜率。
 - 在6h_vs_8z地图上，TRFMARL通过学习复杂策略（如保持队形和攻击远处敌人）显著提高了胜率。
消融实验结果
移除任何奖励机制都会降低TRFMARL的收敛速度和胜率，尤其在超困难任务中影响显著。
 
组奖励机制对性能的影响最大，个体奖励机制和团队奖励机制在不同任务中表现出不同的重要性。
 
敏感性分析
β1和β2的变化对算法性能的影响复杂，没有明显的规律性。
 
五、结论
 本研究提出的TRFMARL算法通过三重奖励框架有效解决了多智能体协作中的效率问题。实验结果表明，该算法在复杂任务和稀疏奖励环境中表现出色，具有较高的科学价值和实际应用潜力。未来的研究方向包括基于Shapley值理论的分组方法以及超参数β1和β2的自动优化。
六、研究亮点
 1. 创新性：首次将个体奖励、团队奖励和组奖励结合应用于多智能体强化学习。
 2. 性能优越：在多个SMAC地图上，TRFMARL的胜率比基准算法高出20%。
 3. 实用性：通过防止懒惰智能体的出现和最大化团队影响，显著提高了多智能体协作的效率。
七、其他有价值的内容
 - 研究提供了详细的实验数据和消融分析，为后续研究提供了重要参考。
 - 算法的实现代码已开源，便于其他研究者复现和改进。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问