本文是一篇题为《A comprehensive survey on multi-agent cooperative decision-making: scenarios, approaches, challenges and perspectives》的学术综述论文。这篇综述由来自西安交通大学、香港大学、帝国理工学院伦敦国王学院等机构的Weiqiang Jin, Hongyang Du, Biao Zhao, Xingwu Tian, Bohang Shi, Guang Yang等学者撰写,目前以预印本形式提交,收录于《Information Fusion》期刊。
论文主题聚焦于多智能体协同决策(multi-agent cooperative decision-making),这是一个人工智能与机器学习领域内至关重要的研究方向,旨在让多个智能体通过协作完成复杂任务。随着人工智能技术的飞速发展,智能决策技术在各类人机对抗(如AlphaGo)中展现出超越人类的能力,推动了从单智能体决策向多智能体协同决策的范式转变。这种技术在自动驾驶、无人机集群、灾难救援、模拟军事对抗等现实场景中具有广泛应用前景。尽管该领域已有不少文献综述,但作者指出现有综述存在三大局限性:研究范围局限于强化学习框架、忽视仿真环境的重要性、对项目实现细节关注不足。为了弥补这些空白,本文旨在提供一份更全面、更实用的多智能体协同决策调研,不仅系统梳理算法模型,还重点分析了关键的仿真环境,并探讨了实际应用、当前挑战与未来研究方向。
本文将多智能体协同决策方法大致归类为五类主流范式,并对每种范式进行了详细的梳理与分析。
首先是基于规则(主要是模糊逻辑)的方法。 这类方法利用模糊逻辑处理不确定性、不精确数据和动态环境,使智能体能够做出类人的自适应决策。论文列举了多个代表性工作,例如利用局部信息进行控制的规则算法、结合模糊逻辑与Q学习及博弈论进行交通信号灯控制、以及将模糊逻辑与博弈论结合以处理多智能体决策中的效用不确定性等。模糊逻辑方法因其可解释性和在不确定环境中的鲁棒性,仍然是多智能体系统决策的基石方法。未来的方向是将其与大型语言模型(Large Language Models, LLMs)和分层决策架构进一步集成。
其次是基于博弈论的方法。 博弈论为分析多智能体系统中的策略性互动提供了一个结构化框架。它使智能体能够在合作、竞争或混合场景中做出理性决策,其理论基础包括纳什均衡和斯塔克尔伯格博弈等。论文综述了博弈论在路径规划、分布式控制、无线网络资源分配、微电网分布式能源管理以及分布式计算数据副本放置等多种场景中的应用。同时,现代方法常将博弈论与强化学习和贝叶斯推理相结合,以增强在动态环境中的适应性。博弈论为多智能体决策提供了有明确理论保证的分析工具,未来研究趋势是与深度学习和LLMs融合,以增强在高维、不确定环境中的战略推理能力。
第三是基于进化算法的方法。 进化算法受生物进化原理启发,通过自然选择、突变和重组等机制实现多智能体系统的优化。这类方法允许智能体策略迭代进化,特别适用于需要持续学习、大规模协调和自组织行为的问题。文中介绍了多智能体遗传算法、利用纳米团簇作为物理代理的硬件多智能体系统、以及在动态环境(金融市场、智能电网)中应用进化策略的研究。深度神经进化将协同进化技术应用于复杂多智能体场景(如Atari游戏)。进化强化学习将学习过程分为多个阶段,确保更好的适应性。此外,进化博弈论也被用于改善合作行为,例如在三策略决策模型中,智能体根据与邻居的互动采取保守或自适应策略以促进长期合作。进化算法为去中心化决策提供了一个鲁棒的框架,未来将与深度学习、分层进化和大规模多智能体协调更深度地结合。
第四是基于多智能体强化学习的方法,这是当前该领域的主流与核心。 论文详细阐述了MARL的三种主要研究范式,并配图说明了各自的概念框架:1. 集中式训练与集中式执行:一个中央控制器收集所有智能体的信息并做出联合决策,协调程度高但可扩展性有限,经典方法如多智能体DQN。2. 去中心化训练与去中心化执行:每个智能体完全独立地与环境交互并更新自身策略,可扩展性强但面临环境非平稳性和信用分配等挑战,代表性方法包括独立Q学习、分布式Q学习和独立近端策略优化等。3. 集中式训练与去中心化执行:这是当前最主流的范式,它结合了前两者的优点。在训练阶段利用全局信息优化策略,在执行阶段各智能体仅依赖自身观察独立行动。该方法有效缓解了非平稳性和维度诅咒等问题。CTDE下的算法又可细分为三大技术流派:基于价值函数分解的算法(如VDN, QMIX, Weighted QMIX, QPLEX),其核心思想是将联合状态-动作价值函数分解为各智能体的个体价值函数,并遵循“个体-全局最大值”原则;基于演员-评论家框架的算法(如MADDPG, COMA),通过集中式评论家评估联合行动价值,以解决信用分配和环境非平稳性问题;基于近端策略优化的算法(如MAPPO, HAPPO),将PPO算法的稳定性和CTDE的协调优势结合,适用于连续或高维动作空间。论文还特别补充了基于通信的MARL算法,这类方法旨在通过智能体间的信息共享来增强协作,可分为广播通信、定向通信和网络通信三种模式,具体算法如DIAL, CommNet, ATOC, TarMAC等,它们致力于在通信效率和决策性能之间取得平衡。
第五是基于大型语言模型的多智能体系统,这是一个新兴且极具潜力的方向。 LLMs为多智能体系统带来了强大的自然语言沟通、复杂推理和任务分解能力。此类系统通常采用分层组织架构:全局规划智能体负责高层任务分解、资源分配和战略管理;本地执行智能体负责执行具体子任务并向全局层反馈。代表性的开发框架包括AutoGen, CrewAI, LangGraph等。同时,也涌现出专门用于评估LLMs多智能体能力的仿真环境,如TDW-MAT(多智能体搬运)、C-WAH(交流观察与帮助)、CuisineWorld(协作烹饪)和AgentScope(通用多智能体平台)等。LLM智能体在社会科学(模拟经济行为、社会网络、用户行为分析)、自然科学(宏观经济模拟、生成式基于智能体的建模)和工程学(软件开发、多机器人系统)等领域展现出广泛的应用前景。然而,这类系统也面临可扩展性、协调复杂性以及模型决策过程缺乏透明度等挑战。
仿真环境是多智能体决策研究不可或缺的基石。 本文用专门章节系统梳理了主流的MARL和LLMs仿真平台。在MARL方面,多智能体粒子环境(Multi-Agent Particle Environment, MPE) 是一个经典的2D连续空间平台,支持合作与竞争混合场景的测试,是MADDPG等算法的基准环境。星际争霸多智能体挑战(StarCraft Multi-Agent Challenge, SMAC/SMAC-v2) 则提供了复杂的即时战略游戏环境,是评估MARL算法在异构、部分可观测环境下协作能力的标杆。其他重要环境还包括Google Research Football(足球游戏)、MineCraft(开放世界任务)、Hanabi(纸牌合作游戏)以及Melting Pot(评估社会泛化能力)等。在LLMs方面,前文提到的TDW-MAT、C-WAH等环境则专注于评估智能体在自然语言指引下的规划、协调与物理交互能力。这些多样化的仿真环境为算法开发、验证和比较提供了至关重要的实验场。
本文在最后部分讨论了多智能体协同决策的实际应用与未来挑战。在应用方面,论文回顾了该技术在智能交通(自动驾驶车队协同)、空中系统(无人机集群导航)、工业自动化(协同机器人)等领域的成功案例。面临的挑战则包括但不限于:MARL中的环境非平稳性、信用分配难题、探索与利用的平衡、可扩展性限制;LLM智能体中的推理可靠性、长上下文处理、与具身环境的结合、以及高昂的计算成本。展望未来,论文指出几个关键的研究方向:算法与理论的创新(如更高效稳定的MARL算法、LLMs与MARL的深度融合)、仿真环境的逼真化与多元化、对安全性、鲁棒性和可解释性的重视,以及推动技术在更复杂现实世界场景中的落地。
这篇综述论文具有重要的学术价值和实践指导意义。其价值主要体现在:第一,全面性与系统性:超越了以往综述多局限于MARL的视角,首次将基于规则、博弈论、进化算法、MARL和LLMs五大范式置于同一框架下进行横向比较与分析,并赋予仿真环境与算法模型同等重要的地位。第二,前瞻性与洞察力:敏锐地捕捉到LLMs为多智能体系统带来的范式变革,并对其架构、应用和挑战进行了深入探讨,为研究者指明了新兴热点。第三,实用性与指导性:不仅梳理理论,还详细列举了各类主流仿真环境和实际应用案例,为初学者入门和研究者开展实验提供了清晰的路线图。第四,结构清晰与内容详实:论文组织逻辑严密,从背景、方法、环境、应用到挑战展望,层层递进,并辅以大量的参考文献和分类表格,使其成为一份不可多得的领域知识地图和参考手册。这篇综述无疑将推动多智能体协同决策领域向更深入、更广阔的方向发展。