本文是一篇关于大型语言模型(Large Language Model, LLM)查询路由新范式的学术研究论文,题为“DisRouter: Distributed Self-Routing for LLM Selections”。该论文目前正在作为会议论文接受ICLR 2026的双盲评审,作者信息处于匿名状态。
学术背景与研究目标
随着大型语言模型(LLM)的爆炸式增长,当前生态系统包含了从轻量级到重量级、性能与成本差异巨大的众多模型。如何在处理用户查询时,智能地选择最合适的模型,以在保证性能的同时控制成本,成为一个关键挑战。这一挑战通常被称为“查询路由”或“模型选择”。
现有的主流解决方案多采用集中式路由架构。在这种架构下,一个独立的、通常较小的“路由器”模型负责评估查询难度或预测各个候选LLM的性能,然后将查询分配给被认为最合适的模型。然而,这种集中式方法存在两个根本性局限:1) 灵活性差:外部路由器通常在固定的LLM集合上训练,一旦需要添加、移除或更新模型池中的某个LLM,整个路由系统需要代价高昂的重新训练,难以扩展。2) 评估不准确:外部路由器模型本身能力有限,难以充分理解各个大型LLM内在的“知识边界”,因此其能力评估可能成为整个路由系统的性能瓶颈。
为了克服这些局限,本研究提出了一种范式转换:从集中式控制转向分布式路由。研究者们引入了 DisRouter(分布式自路由器)这一全新框架。其核心思想是摒弃单一的中心路由器,转而赋予网络中的每个LLM智能体以“自我意识”——即判断自身是否有能力可靠回答当前查询的能力。每个智能体基于这种自我意识,独立决定是回答查询还是将其路由给其他智能体。这种设计旨在实现更优的灵活性、可扩展性和通用性。
本研究的具体目标包括:1) 提出DisRouter分布式自路由框架,验证其相对于传统集中式路由器的优越性;2) 设计一套能够增强LLM自我意识的训练流程,使智能体能够在分布式系统中独立、并行地完成训练;3) 通过大量实验证明DisRouter能够在多种场景下有效平衡性能与成本,并展现出强大的泛化能力和场景适应性。
详细工作流程
本研究的工作流程主要分为两个核心部分:DisRouter路由框架的构建与运行,以及用于赋能智能体的自我意识训练流程。
第一部分:DisRouter路由框架 研究者将DisRouter实例化为一个级联结构。模型池由五个不同规模的Qwen2.5-instruct系列模型组成(0.5B, 1.5B, 3B, 7B, 14B),并按成本从低到高排序。每个模型都被视为一个智能体。 1. 路由过程:查询首先进入最小的模型(0.5B)。该模型基于其自我意识对查询进行评估。如果它自信能够正确回答,则生成答案并结束流程;如果它判断自己能力不足,则生成“我不知道”的拒绝响应,并将查询自动路由给下一个更大的模型(1.5B)。这个过程依次进行,直到某个模型决定回答,或者查询到达最终的“后备专家”14B模型(该模型被设定为必须回答所有到达它的查询)。这种设计将抽象的自知之明转化为具体的“回答”或“拒绝/路由”行为。 2. 分布式优化:与集中式路由学习一个全局策略不同,DisRouter的优化目标是让每个智能体学习其本地路由策略。整个系统的效用最大化问题可以分解为每个智能体独立优化其本地期望效用的子问题,这为实现“即插即用”的模块化提供了理论基础。
第二部分:自我意识训练流程 DisRouter的有效性高度依赖于每个智能体的自我意识。为了增强这种能力,研究者设计了一个两阶段的训练流程。 1. 数据构建:使用目标LLM在训练数据上多次进行思维链推理,统计其回答正确的频率。这个频率代表了模型对该查询的“能力值”。 2. 监督微调阶段:本阶段旨在为模型奠定自我评估的基础。研究者设定了与场景相关的拒绝阈值δ = 1 - α(α为用户偏好因子)。对于能力值低于阈值δ的查询,将其标准答案替换为“我不知道”,构成“拒绝”样本;对于能力值高于阈值的查询,保留其思维链和答案,构成“回答”样本。为了同时适应不同场景(性能优先、平衡、成本优先),研究者为三个不同的α值(0.2, 0.5, 0.8)分别构建了等量的训练数据并混合,同时平衡“回答”与“拒绝”样本的比例,以防止偏见。然后使用这些数据对各个LLM进行监督微调。 3. 强化学习阶段:为了进一步微调和提升模型的自我意识与场景适应性,研究者提出了一个场景条件奖励函数进行强化学习。奖励规则如下: * 回答正确:奖励 +1 * 回答错误:奖励 0 * 拒绝回答:奖励 (1 - α)^γ 其中,α是偏好因子,代表场景对成本的重视程度(α越大越重视成本);γ是可靠性因子(本研究设为0.5),用于确保模型保持足够的可靠性,避免为了成本过度牺牲精度。该奖励函数的设计是本研究的一个关键创新。理论分析表明,模型选择“回答”的期望奖励是其能力值p(x),选择“拒绝”的奖励是(1-α)^γ。模型只有在p(x) > (1-α)^γ时才会选择回答。这意味着,当α增大(更注重成本)时,回答所需的能力阈值降低,模型会变得更“激进”(更倾向于回答),反之则更“保守”。这完美地将全局场景偏好通过本地化奖励嵌入到了每个智能体的决策逻辑中,无需智能体间的直接通信即可实现系统层面的协同适应。
主要实验结果与分析
研究者在多个领域(数学推理、常识问答、阅读理解)的七个数据集上进行了广泛的实验,并将DisRouter与多种基线方法进行了比较,包括始终使用最小/最大模型的朴素策略、随机路由,以及RoutellM、FrugalGPT、AutoMix、ForC、GraphRouter等代表性路由方法。评估的核心指标是效用,即 性能(准确率) - α * 成本(归一化模型开销)。
结论与价值
本研究提出了DisRouter,一个创新的分布式自我路由框架,以解决多智能体系统中的查询路由挑战。通过识别并摒弃集中式路由架构的关键限制,DisRouter将路由决策权下放,赋予每个LLM智能体基于内在自我意识进行决策的能力,从而创建了一个完全分布式、可扩展、即插即用的系统。
研究的科学价值与应用价值: 1. 范式创新:提出并验证了分布式自我路由这一新范式,为LLM协作系统的架构设计提供了新思路。 2. 方法创新:设计了两阶段自我意识训练流程和巧妙的场景条件本地奖励函数,实现了智能体的独立训练与系统层面的协同自适应。 3. 性能优越:大量实验证明,DisRouter在多种成本敏感场景下,其效用 consistently超越现有竞争方法。 4. 实用性强:其模块化、灵活性、强泛化能力和低开销(路由开销不足总推理时间的5%)等特点,使其具备很高的实际部署潜力,能够适应动态变化的模型池和多样化的用户需求。
研究亮点
其他有价值内容
论文在附录中进行了详细的时间开销分析,指出DisRouter的路由决策时间(即生成拒绝响应的时间)平均不到模型推理时间的5%,在 worst-case 下也不到5%,且系统延迟远低于FrugalGPT、AutoMix等需要中间生成或多次验证的方法,证明了其实际部署的可行性。此外,论文也严格遵守了可重复性研究原则,详细公开了数据集、模型、训练参数等所有细节。