基于图神经网络的智能体路由框架GraphPlanner:面向大型语言模型的异构协作工作流生成
一、 研究团队与发表信息
本研究由匿名作者团队完成,论文目前以“双盲评审”形式提交,正处于“作为会议论文在ICLR 2026审稿中”的阶段。因此,具体的作者姓名、所属机构及最终发表期刊/会议信息在此版本中不予披露。
二、 学术背景与研究目标
本研究隶属于人工智能领域,具体聚焦于大型语言模型(Large Language Models, LLMs)的应用与优化方向,特别是LLM路由(LLM Routing)与智能体系统(Agentic Systems)的交叉研究。
研究背景:随着多样化LLM模型(不同规模、能力、成本)的涌现,如何高效地整合这些模型的优势,在性能与效率之间取得平衡,成为了一个重要课题。LLM路由技术应运而生,其核心是根据查询(Query)动态选择最合适的LLM模型来执行任务。然而,现有路由方法大多局限于简化的单轮或静态多轮选择场景,缺乏对复杂、多步骤任务的规划能力,也未能有效建模多个LLM智能体之间的协作关系。与此同时,基于LLM的智能体(Agentic LLMs)系统在复杂任务规划、多智能体协作和记忆利用方面展现出巨大潜力。将路由技术扩展到智能体场景,即让路由决策不仅选择模型,还选择智能体角色(如规划者、执行者、总结者),并生成结构化的协作工作流,是应对现实世界复杂挑战的关键。
研究目标:本研究的核心目标是填补上述空白,提出一个能够支持智能体LLM设置的路由框架。具体而言,旨在解决三个关键挑战:1) 在智能体环境中,查询、响应和LLM候选者之间的关系高度复杂且异构,如何有效捕捉和利用这些依赖关系;2) 智能体路由涉及延迟奖励,早期决策对最终结果有长期影响,存在信用分配难题;3) 如何充分利用智能体系统产生的丰富历史交互数据来改进未来的路由协调。为此,研究者提出了GraphPlanner,一个基于异构图的智能体路由器,旨在为每个查询生成动态的、协作的智能体路由工作流。
三、 研究方法与详细流程
GraphPlanner将智能体路由工作流的生成过程建模为一个马尔可夫决策过程(Markov Decision Process, MDP),并利用一个名为GARNET的异构图神经网络来整合历史交互与当前工作流上下文,最终通过强化学习进行端到端优化。其详细工作流程如下:
1. 问题建模为MDP: * 状态(State):在每一步t,状态s_t定义为当前正在处理的查询q_t。环境的核心始终是待解决的查询,而上下文信息则通过演化的图结构隐式捕获。 * 动作(Action):每个动作a_t是一个二元组(α_t, m_t),其中α_t指定智能体角色(规划者、执行者、总结者),m_t指定从k个候选LLM骨干中选择一个。因此,总动作空间大小为3k。为确保语义有效性,系统设置了动态掩码来限制可用动作,例如初始步骤禁止选择总结者,最终步骤强制终止于执行者动作,并限制规划者的最大调用次数。 * 状态转移(Transition):环境根据当前状态和动作,更新工作流并产生响应。具体规则是:若动作为规划者,则将当前查询分解为子查询,输出为子查询集,下一个状态设为第一个子查询;若为执行者,则解决当前查询,输出为答案,并移动到下一个待处理查询(或终止);若为总结者,则聚合已完成响应,输出为摘要,并将下一个状态设为摘要查询。 * 奖励(Reward):奖励函数平衡任务效用和计算成本。在最终步骤,奖励为任务特定效用(如准确率)减去加权后的动作成本;在中间步骤,奖励仅为负的动作成本。这鼓励系统在追求高准确率的同时兼顾效率。 * 目标:路由器的目标是学习一个策略π,以最大化期望折扣回报。
2. 基于异构图的策略网络(GARNET): 这是GraphPlanner的核心创新组件,用于参数化策略π(a_t | s_t)。 * 图结构:环境状态由两个图联合表示:当前工作流图(G_workflow)和历史交互图(G_history)。图中包含三类节点:查询节点(嵌入当前查询文本)、响应节点(嵌入生成的响应文本)、以及角色枢纽节点(LLM-角色对,包含角色文本嵌入、任务效用和成本信息)。 * 节点初始化与共享机制:一个关键设计是维护一组固定的角色枢纽节点(每个LLM-角色对对应一个),这些节点在G_workflow和G_history之间共享。所有查询和响应节点,无论来自哪个轮次,都连接到这些共享的枢纽节点。这一架构通过单一接口聚合了三方面信息:当前工作流上下文、积累的历史交互信号、以及角色特定的效用-成本画像,实现了跨图的一致信息传递。 * 图构建与消息传递:在工作流图中,查询通过边连接到角色节点,边信息包含任务性能和成本;响应连接到生成它们的角色节点;查询-响应边保持语义对齐。在历史图中,过去的查询和响应节点连接到相同的共享角色枢纽节点,编码了关于角色在过去交互中表现的经验。通过图神经网络的消息传递机制,节点状态得以更新,从而编码了复杂的异构关系。 * 嵌套双图编码:采用双图编码方案。首先对历史图进行编码,获得总结了历史交互模式的角色枢纽节点更新嵌入。然后将这些嵌入注入到工作流图编码器中,产生结合了局部上下文和历史信息的查询、角色、响应表示。 * 状态融合与动作评分:将当前查询的嵌入与经过GARNET编码后的所有候选角色枢纽节点嵌入进行融合与兼容性评分,再通过掩码和归一化,得到选择每个动作的概率分布。
3. 训练流程: 采用近端策略优化(Proximal Policy Optimization, PPO)这一演员-评论家(actor-critic)强化学习算法来优化上述基于异构图的策略网络。通过与环境(模拟的LLM调用和任务环境)交互产生轨迹(状态、动作、奖励序列),利用这些轨迹数据更新策略参数,最终目标是使策略能够生成高回报(即高精度、低成本)的智能体路由工作流。
4. 实验对象与设置: 研究进行了两阶段的综合评估,涵盖了14个任务,分属6个领域(数学、代码、常识推理、世界知识、流行基准、以及用于零样本泛化评估的域外任务)。使用了12个具有代表性的LLM作为骨干模型池,按规模分为小、中、大三类。实验设计如下: * 阶段一(Phase 1):评估在用户预定义的固定智能体工作流结构(如图3所示,设定深度和宽度参数)内,优化每个智能体节点所选择的LLM骨干的能力。基线方法是将现有的单轮路由器扩展应用于工作流中的每个节点。 * 阶段二(Phase 2):评估联合优化智能体角色选择和LLM骨干选择,从而为每个查询动态生成最优工作流的能力。对比基线包括经典的单轮路由器(如Router-kNN, Router-MLP, RouterDC, GraphRouter)和多轮路由器(如Prompt-LLM, R2-Reasoner, Router-R1)。 * 评估指标:主要使用任务特定准确率(Acc)和计算成本(Cost,基于输入/输出token数和各LLM的定价计算)来衡量性能。
四、 主要研究结果及其逻辑关系
实验结果表明,GraphPlanner在多个维度上显著优于现有基线方法,验证了其设计有效性。
1. 性能超越单轮与多轮路由器: * 在阶段一(优化固定工作流内的LLM选择)中,GraphPlanner在五个任务场景中的四个取得了最佳性能,平均准确率相比最强基线提升至少+3.8%。这表明即使在固定协作结构下,其基于图的上下文感知路由也更为有效。 * 在阶段二(动态生成工作流)中,GraphPlanner的优势进一步扩大,在四个任务上取得最佳性能,平均准确率相比最佳基线提升+9.3%。特别是在需要多步规划的数学和代码任务上,提升显著(分别达5.0%和4.0%),这得益于其自适应构建查询特定工作流的能力。而识别类任务提升较小,说明灵活的工作流探索对模式匹配任务增益有限。这一结果从阶段一到阶段二的递进,逻辑上证明了动态工作流生成比在固定工作流内优化能带来更大的性能收益。 * 帕累托(Pareto)前沿分析:通过调整奖励函数中的成本权重α,GraphPlanner能够形成帕累托前沿,即在相同的成本下获得更高的准确率,或在相同的准确率下消耗更低的成本,证明了其在性能与效率权衡上的优越性和可控性。
2. 出色的泛化能力: * 对未见任务的零样本泛化:在未参与训练的三个域外数据集(LogicGrid, MGSM, Commongen)上,GraphPlanner取得了78%的平均准确率,显著高于单轮路由器(GraphRouter 46%, RouterDC 58%)和多轮路由器Router-R1(38%)。这证明了其学习到的路由策略能够迁移到全新的任务类型。 * 对未见LLM的零样本适应:当在评估时引入训练中未出现的新LLM骨干时,GraphPlanner在所有任务领域仍能保持领先性能,表明其策略不依赖于特定模型的训练经验,具有对未知模型资源的鲁棒性。
3. 高效的训练与推理: * 尽管GraphPlanner需要学习更复杂的决策策略,但其训练所需的GPU计算量(1.04 GiB)远低于多轮路由器Router-R1(186.26 GiB),这得益于其轻量化的图网络设计。虽然其训练过程平均调用LLM的次数(4.25次)高于某些基线,但这反映了其进行多步探索以学习更好策略的必要投入,并最终换来了更高的推理性能。
4. 消融研究验证关键组件: * 历史交互利用的重要性:移除历史信息(w/o history)导致性能显著下降,证明积累的交互上下文提供了超越单步推理的关键信号。 * 异构图结构GARNET的有效性:将GARNET替换为同构图(homo-graph)或另一种不包含工作流动态的异构图编码器(hetero-graph),性能均不及完整的GraphPlanner。这验证了GARNET不仅通过异构性区分角色,还能有效建模工作流的动态演化,从而更有效地利用历史交互。 * 归纳式与直推式推理:GraphPlanner支持两种推理模式。直推式(Transductive) 推理利用训练阶段保留的历史交互,能获得略高的准确率,但代价是更高的计算和存储开销。归纳式(Inductive) 推理不依赖保留的历史数据,更为轻量,其性能仍能稳定超越最强的多轮路由器基线Router-R1。这为不同资源优先级的应用场景提供了灵活性。
这些结果层层递进:首先,核心实验证明了GraphPlanner相对于现有范式的绝对性能优势;其次,泛化实验证明了其策略的普适性和鲁棒性,这是实际应用的关键;最后,消融实验从内部机理上确认了各个设计组件(历史利用、图结构、推理模式)的必要性和贡献,构成了支持最终结论的完整证据链。
五、 研究结论与价值意义
本研究提出了GraphPlanner,一个将LLM路由问题转化为基于MDP的工作流生成问题,并利用异构图表征GARNET整合历史与上下文交互,通过强化学习进行优化的智能体路由框架。
科学价值: 1. 范式拓展:首次系统地将LLM路由从传统的模型选择问题,推进到智能体协调与结构化工作流生成的新范式。这为构建复杂、协作的多智能体LLM系统提供了新的理论基础和实现路径。 2. 方法创新:提出了GARNET这一创新的异构图表征,巧妙地通过共享角色枢纽节点连接工作流与历史,实现了对多轮、多角色、异构交互的高效建模,为解决智能体系统中的信用分配和上下文利用难题提供了新思路。 3. 验证了智能体路由的可行性与优越性:通过严格的实验,证明了在智能体设置下进行路由决策,不仅能获得比单轮/多轮路由更高的任务性能,还能通过工作流规划更灵活地平衡性能与成本。
应用价值: 1. 提升复杂任务解决能力:为需要多步骤规划、分解与协作的复杂现实任务(如复杂问题求解、多步骤决策、长文档分析)提供了自动化的、高效的LLM资源调度与协作方案。 2. 实现高效的异构模型集成:使得用户能够透明地利用一个由多种不同能力、不同成本的LLM组成的“模型池”,系统自动分配角色和模型,最大化整体性价比。 3. 良好的可扩展性与泛化性:其零样本泛化能力意味着该系统可以更容易地接入新的任务领域和新的LLM模型,降低了部署和维护成本。
六、 研究亮点
七、 其他有价值的内容
论文还暗示了未来的研究方向,例如纳入更丰富的智能体角色档案(超越规划者、执行者、总结者),以进一步增强智能体路由的复杂性和适应性。这表明GraphPlanner是一个可扩展的框架,为后续研究留下了接口和空间。此外,论文中详实的实验设置(两阶段评估、广泛的基线对比、严格的消融分析)为相关领域的研究者提供了宝贵的基准和评估方法论参考。