分享自:

多智能体系统搜索:通过优化提示与拓扑结构提升智能体性能

期刊:ICLR

多智能体系统设计优化:通过提示词与拓扑结构实现更优智能体

一、 研究团队与发表信息

本研究的主要作者包括 Han Zhou(来自 Google 和 University of Cambridge)、Xingchen Wan、Ruoxi Sun、Hamid Palangi、Shariq Iqbal、Ivan Vulić、Anna Korhonen 以及 Sercan Ö. Arik,研究团队主要来自 Google 和剑桥大学。该研究成果已正式发表于第十四届国际学习表征会议(ICLR 2026)。

二、 学术背景与研究目标

本研究的科学领域属于人工智能,具体聚焦于基于大语言模型(Large Language Models, LLMs)的多智能体系统(Multi-Agent Systems, MAS)。近年来,利用多个相互交互与协作的LLM智能体来解决复杂任务取得了显著成功。这些智能体的核心设计包括两个关键部分:定义其功能的提示词(prompts),以及协调智能体间交互的拓扑结构(topologies)。然而,为特定任务手动设计高效的提示词和拓扑结构是一项复杂且耗时的工程,通常依赖于大量试错,且设计空间巨大,包含无限的提示词变体和多样的拓扑组合。

尽管已有一些自动化设计方法出现(如优化示例的DSPy、通过增加智能体数量进行扩展、使用LLM元智能体生成新拓扑的ADAS、基于蒙特卡洛树搜索的AFlow等),但这些方法往往只关注单一设计维度(如仅优化拓扑),且对“什么因素对提升MAS性能最为关键”缺乏深入理解。特别是,提示词设计与拓扑设计之间的相互作用尚未明确。

基于此,本研究旨在深入分析MAS的设计空间,揭示构建有效系统的关键因素,并在此基础上,提出一个能够自动化、高效地联合优化提示词与拓扑结构的框架。研究目标包括:1)通过分析揭示影响MAS性能的核心设计因素;2)提出一个新颖的多阶段优化框架,自动化MAS设计过程;3)通过广泛的实验验证所提框架的有效性,并基于优化结果提炼出构建高效MAS的设计原则。

三、 研究详细流程与方法

本研究首先进行了深入的设计空间分析,然后提出了名为MASS(Multi-Agent System Search)的优化框架,并进行了系统性的实验验证。

第一阶段:设计空间分析 1. 模块级分析(提示词设计):研究量化了提示词优化对单个智能体性能的影响。研究者使用先进的提示词优化器(如MIPRO)对链式思维(Chain-of-Thought, CoT)智能体进行优化,同时优化指令和示例。在数学推理任务上的实验表明,与仅通过增加智能体数量(如自洽性Self-Consistency、自我反思Self-Refine)相比,优化提示词能带来更显著的性能提升,且具有更高的“令牌效率”。这揭示了在构建MAS之前,先对单个智能体进行本地优化的重要性。 2. 工作流级分析(拓扑结构设计):研究定义了五种可配置的智能体构建模块,构成了一个统一的搜索空间:聚合(Aggregate,如多数投票)、反思(Reflect,如自我改进)、辩论(Debate,多智能体辩论)、自定义(Custom,如针对长上下文的总结Summarize)和工具使用(Tool-use,如代码执行)。通过实验评估这些拓扑模块在不同任务上的表现,研究发现并非所有拓扑都对MAS性能有正面影响,有益拓扑仅占整个设计空间的一小部分。例如,在HotpotQA任务上,只有辩论模块带来了增益,而其他模块甚至可能降低性能。这强调了在优化时需要在一个经过剪枝的、有影响力的搜索空间中进行的重要性。

第二阶段:提出MASS优化框架 基于上述分析,研究者提出了MASS框架,这是一个三阶段、交错优化提示词与拓扑结构的方法。其核心思想是从局部到全局、从模块级到工作流级逐步优化,以应对组合优化空间的复杂性。具体流程如下: 1. 模块级提示词优化(1PO):此阶段旨在为每个拓扑模块“预热”最优的提示词。首先,对基础的预测智能体(如CoT)进行自动提示词优化。然后,以此为基础,对每个拓扑构建模块(如辩论、聚合)的最小实例(例如,辩论模块的最小实例是2个预测器+1个辩论者)进行独立的提示词优化。此阶段确保后续拓扑优化是在由高性能智能体构成的有效空间中进行,避免了使用手工提示词可能带来的复合负面影响。优化完成后,记录每个模块相对于基础智能体的“增量影响力”。 2. 工作流拓扑优化(2TO):在此阶段,基于第一阶段得到的各模块优化后提示词及其影响力评分,在一个剪枝后的搜索空间中进行拓扑结构优化。剪枝策略是:根据模块的影响力分数(通过softmax函数转换为选择概率),拒绝那些低影响力的拓扑模块维度。然后,在预算(如总智能体数量)限制内,从剪枝后的空间中随机采样有效的配置,并按照预定义的规则(如[总结,反思,辩论,聚合]的顺序)构建工作流。在验证集上评估这些候选工作流的性能,并选择最佳拓扑。 3. 工作流级提示词优化(3PO):在确定了最佳拓扑结构后,将此整体MAS视为一个实体,进行最后一轮联合提示词优化。此阶段旨在优化智能体间的相互依赖关系,使各智能体的提示词适应其在特定工作流中的协同角色,从而进一步提升性能。

第三阶段:实验验证 * 研究对象与数据集:研究在广泛的基准任务上进行了评估,包括:数学推理(MATH, DROP)、多跳长上下文理解(HotpotQA, Musique, 2WikiMultihopQA)以及代码生成(MBPP, HumanEval, LiveCodeBench的测试输出预测子任务)。主要实验模型为Gemini 1.5 Pro和Flash,并在Claude 3.5 Sonnet和Mistral Nemo上进行了补充验证。 * 基线方法:对比了多种基线,包括:零样本链式思维(CoT)、自洽性(SC)、自我反思(Self-Refine)、多智能体辩论(Multi-Agent Debate)以及最新的自动化设计方法ADAS和AFlow。所有方法在可比的推理计算成本下进行公平比较。 * 实验设置:MASS框架集成了MIPRO作为提示词优化器。在拓扑优化阶段,搜索10种不同的拓扑。所有优化和评估均在验证集上进行,最终结果在测试集上报告,并运行多次以计算均值和标准差。

四、 主要研究结果

  1. MASS框架性能卓越:如表1所示,MASS优化出的MAS在Gemini 1.5 Pro和Flash上,在几乎所有任务上都显著超越了所有基线方法。在Gemini 1.5 Pro上,平均性能达到78.79%,相比传统的多智能体辩论(70.26%)和自动化设计方法ADAS(69.72%)有大幅提升。即使在与其他先进自动化方法AFlow的对比中,MASS在多数任务上也表现更优或相当,尤其在MATH和Musique任务上优势明显。
  2. 各优化阶段均有贡献:如图5所示,阶段化消融实验验证了MASS每个阶段的有效性。从基础CoT到模块级提示词优化(1PO)带来了显著提升;在此基础上进行拓扑优化(2TO)进一步带来增益;最后的工作流级提示词优化(3PO)还能带来小幅但稳定的额外提升。实验还表明,若跳过提示词优化直接进行拓扑搜索,或不对搜索空间进行基于影响力的剪枝,都会导致搜索效率下降和性能损失。
  3. MASS具有更高的成本效益:如图6所示,MASS的优化轨迹显示出稳定上升的趋势,通过交错优化提示词和拓扑,能够在相同的训练成本内获得更连续的性能奖励。而ADAS等方法可能陷入生成过于复杂但低效拓扑的困境。研究还指出,MASS优化出的系统在推理时也具有更高的令牌效率。
  4. 最佳MAS架构与设计原则:通过分析MASS的优化轨迹(如图7所示),研究提炼出构建高效MAS的关键原则:首先,在将智能体组合成MAS之前,对单个智能体进行适当的提示词优化至关重要。其次,通过组合有影响力的拓扑模块(而非所有模块)来构建MAS更为有效。最后,通过工作流级的联合提示词优化来建模智能体间的相互依赖关系是有益的。研究还展示了MASS为不同任务发现的不同最优拓扑(如图8和表2所示),例如对于数学推理任务,最优拓扑是包含多个并行智能体的聚合模块,而对于某些长上下文任务,则结合了总结和辩论模块。

五、 研究结论与价值

本研究得出结论:通过深入分析MAS设计空间,揭示了提示词优化的关键作用以及拓扑搜索空间中存在大量冗余。基于此提出的MASS框架,能够在剪枝后的设计空间中,通过交错优化提示词和拓扑结构,自动化地生成高性能的MAS。实验证明,MASS优化的系统在多种任务上显著优于现有手动和自动化方法。

该研究的科学价值在于:1)首次系统性地分析了MAS中提示词与拓扑的相互作用及各自影响力,为理解MAS设计提供了新见解;2)提出了一个通用、可扩展的自动化MAS设计元框架,该框架与具体的提示词优化器和拓扑设计空间无关,具有良好的灵活性和可扩展性;3)基于大量优化实验,总结出具有指导意义的设计原则,为未来构建更高效的LLM智能体系统提供了实用指南。其应用价值在于能够显著降低设计高效多智能体系统的门槛和成本,加速AI智能体在复杂任务上的应用部署。

六、 研究亮点

  1. 重要的研究发现:明确指出了在MAS设计中,提示词优化常常是比单纯增加智能体数量或变换拓扑更关键、更高效的性能提升手段,并量化了其影响力。
  2. 方法的新颖性:提出了首个明确将提示词优化与拓扑结构优化进行多阶段、交错联合优化的自动化MAS设计框架(MASS)。其“从局部到全局”的优化策略以及基于影响力的搜索空间剪枝方法,有效应对了巨大的组合搜索空间挑战。
  3. 研究的系统性:从设计空间分析,到框架提出,再到广泛的实验验证(涵盖多种任务、模型和基线),最后提炼设计原则,形成了完整、严谨的研究闭环。
  4. 框架的通用性:MASS被设计为一个“即插即用”的元框架,可以兼容不同的提示词优化器和自定义的拓扑模块,为后续研究提供了强大的基础工具。

七、 其他有价值内容

论文在讨论部分指出了MASS的局限性与未来方向:虽然当前拓扑空间覆盖了大多数有效设计(串行、并行、混合连接),但纳入更稀疏的通信拓扑等可能进一步提升效率。未来可探索集成更高效的搜索算法(如贝叶斯优化)和利用错误日志文本反馈的提示词优化方法,以进一步提升MASS在更复杂设计空间中的采样效率和性能。这些方向的探索将与MASS框架本身形成互补,共同推动MAS自动化设计领域的发展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com