DisRouter：面向大语言模型选择的分布式自路由框架

分享自：
DisRouter：面向大语言模型选择的分布式自路由框架

期刊:ICLR
本文是一篇关于大型语言模型（Large Language Model， LLM）查询路由新范式的学术研究论文，题为“DisRouter: Distributed Self-Routing for LLM Selections”。该论文目前正在作为会议论文接受ICLR 2026的双盲评审，作者信息处于匿名状态。
学术背景与研究目标
随着大型语言模型（LLM）的爆炸式增长，当前生态系统包含了从轻量级到重量级、性能与成本差异巨大的众多模型。如何在处理用户查询时，智能地选择最合适的模型，以在保证性能的同时控制成本，成为一个关键挑战。这一挑战通常被称为“查询路由”或“模型选择”。
现有的主流解决方案多采用集中式路由架构。在这种架构下，一个独立的、通常较小的“路由器”模型负责评估查询难度或预测各个候选LLM的性能，然后将查询分配给被认为最合适的模型。然而，这种集中式方法存在两个根本性局限：1) 灵活性差：外部路由器通常在固定的LLM集合上训练，一旦需要添加、移除或更新模型池中的某个LLM，整个路由系统需要代价高昂的重新训练，难以扩展。2) 评估不准确：外部路由器模型本身能力有限，难以充分理解各个大型LLM内在的“知识边界”，因此其能力评估可能成为整个路由系统的性能瓶颈。
为了克服这些局限，本研究提出了一种范式转换：从集中式控制转向分布式路由。研究者们引入了 DisRouter（分布式自路由器）这一全新框架。其核心思想是摒弃单一的中心路由器，转而赋予网络中的每个LLM智能体以“自我意识”——即判断自身是否有能力可靠回答当前查询的能力。每个智能体基于这种自我意识，独立决定是回答查询还是将其路由给其他智能体。这种设计旨在实现更优的灵活性、可扩展性和通用性。
本研究的具体目标包括：1) 提出DisRouter分布式自路由框架，验证其相对于传统集中式路由器的优越性；2) 设计一套能够增强LLM自我意识的训练流程，使智能体能够在分布式系统中独立、并行地完成训练；3) 通过大量实验证明DisRouter能够在多种场景下有效平衡性能与成本，并展现出强大的泛化能力和场景适应性。
详细工作流程
本研究的工作流程主要分为两个核心部分：DisRouter路由框架的构建与运行，以及用于赋能智能体的自我意识训练流程。
第一部分：DisRouter路由框架 研究者将DisRouter实例化为一个级联结构。模型池由五个不同规模的Qwen2.5-instruct系列模型组成（0.5B, 1.5B, 3B, 7B, 14B），并按成本从低到高排序。每个模型都被视为一个智能体。 1. 路由过程：查询首先进入最小的模型（0.5B）。该模型基于其自我意识对查询进行评估。如果它自信能够正确回答，则生成答案并结束流程；如果它判断自己能力不足，则生成“我不知道”的拒绝响应，并将查询自动路由给下一个更大的模型（1.5B）。这个过程依次进行，直到某个模型决定回答，或者查询到达最终的“后备专家”14B模型（该模型被设定为必须回答所有到达它的查询）。这种设计将抽象的自知之明转化为具体的“回答”或“拒绝/路由”行为。 2. 分布式优化：与集中式路由学习一个全局策略不同，DisRouter的优化目标是让每个智能体学习其本地路由策略。整个系统的效用最大化问题可以分解为每个智能体独立优化其本地期望效用的子问题，这为实现“即插即用”的模块化提供了理论基础。
第二部分：自我意识训练流程 DisRouter的有效性高度依赖于每个智能体的自我意识。为了增强这种能力，研究者设计了一个两阶段的训练流程。 1. 数据构建：使用目标LLM在训练数据上多次进行思维链推理，统计其回答正确的频率。这个频率代表了模型对该查询的“能力值”。 2. 监督微调阶段：本阶段旨在为模型奠定自我评估的基础。研究者设定了与场景相关的拒绝阈值δ = 1 - α（α为用户偏好因子）。对于能力值低于阈值δ的查询，将其标准答案替换为“我不知道”，构成“拒绝”样本；对于能力值高于阈值的查询，保留其思维链和答案，构成“回答”样本。为了同时适应不同场景（性能优先、平衡、成本优先），研究者为三个不同的α值（0.2， 0.5， 0.8）分别构建了等量的训练数据并混合，同时平衡“回答”与“拒绝”样本的比例，以防止偏见。然后使用这些数据对各个LLM进行监督微调。 3. 强化学习阶段：为了进一步微调和提升模型的自我意识与场景适应性，研究者提出了一个场景条件奖励函数进行强化学习。奖励规则如下： * 回答正确：奖励 +1 * 回答错误：奖励 0 * 拒绝回答：奖励 (1 - α)^γ 其中，α是偏好因子，代表场景对成本的重视程度（α越大越重视成本）；γ是可靠性因子（本研究设为0.5），用于确保模型保持足够的可靠性，避免为了成本过度牺牲精度。该奖励函数的设计是本研究的一个关键创新。理论分析表明，模型选择“回答”的期望奖励是其能力值p(x)，选择“拒绝”的奖励是(1-α)^γ。模型只有在p(x) > (1-α)^γ时才会选择回答。这意味着，当α增大（更注重成本）时，回答所需的能力阈值降低，模型会变得更“激进”（更倾向于回答），反之则更“保守”。这完美地将全局场景偏好通过本地化奖励嵌入到了每个智能体的决策逻辑中，无需智能体间的直接通信即可实现系统层面的协同适应。
主要实验结果与分析
研究者在多个领域（数学推理、常识问答、阅读理解）的七个数据集上进行了广泛的实验，并将DisRouter与多种基线方法进行了比较，包括始终使用最小/最大模型的朴素策略、随机路由，以及RoutellM、FrugalGPT、AutoMix、ForC、GraphRouter等代表性路由方法。评估的核心指标是效用，即 性能（准确率） - α * 成本（归一化模型开销）。
核心性能优势：在“性能优先”、“平衡”、“成本优先”三种场景下，经过两阶段训练的DisRouter（SFT+RL）均取得了最高的效用值。特别是在平衡场景下，其效用（0.61）显著高于所有基线方法，达到了理论最优“先知”路由策略效用的77%以上。这表明DisRouter在真实场景中能非常有效地平衡准确率与成本。
场景适应性验证： 系统层面：如图4所示，随着场景从“性能优先”转向“成本优先”，被路由到较小模型的查询比例显著增加。系统策略从“追求准确率”明确转向了“优先控制成本”。
智能体层面：如图5所示，每个智能体在不同场景下的“回答率”发生了变化。在成本优先场景下，所有智能体的回答阈值降低，变得更愿意尝试回答问题。这证实了本地化奖励函数成功地将场景需求内化到了每个智能体的行为中，是系统实现无协调自适应的基础。
泛化能力与模块化： 域外泛化：在未见过的数据集上进行测试时，DisRouter依然能保持强劲的效用，有效区分查询难度，证明了其良好的泛化能力。
模块化验证：研究者将5个智能体的系统简化为3个智能体（1.5B， 3B， 14B），无需对任何智能体进行重新训练或修改。这个“即插即用”的三智能体系统在所有场景下仍能保持最高的效用，充分体现了DisRouter框架卓越的模块化和灵活性。
有效性原因剖析： 查询难度区分能力：分析显示，DisRouter能有效区分“简单”和“困难”查询，并将简单查询更多地导向成本更低的模型，而基线路由器的这种区分能力有限或不明显。
内在评估 vs. 外部评估：研究者将“7B模型能否解答查询x”构建为一个二分类问题。实验表明，DisRouter中7B模型通过自我拒绝做出的分类判断（准确率80%， F1分数81%），优于使用类似规模LLM（Llama3-8B）训练的外部分类器（准确率71%， F1分数77%），更远优于小型的BERT-based分类器。这强有力地证明了利用LLM内在的自我意识进行评估，比依赖外部路由器进行评估更为有效和高效。外部路由器受限于自身参数规模，难以充分理解大型LLM的知识边界。
自我意识能力：如图7所示，对于经过DisRouter对齐的模型，其选择“回答”的那部分查询的准确率，远高于其选择“拒绝”的那部分查询在原模型上的准确率。例如，7B模型回答部分的准确率达91%，而拒绝部分仅53%。这直接证明了训练后的模型具备了精准判断自身能力边界的高水平自我意识。
结论与价值
本研究提出了DisRouter，一个创新的分布式自我路由框架，以解决多智能体系统中的查询路由挑战。通过识别并摒弃集中式路由架构的关键限制，DisRouter将路由决策权下放，赋予每个LLM智能体基于内在自我意识进行决策的能力，从而创建了一个完全分布式、可扩展、即插即用的系统。
研究的科学价值与应用价值： 1. 范式创新：提出并验证了分布式自我路由这一新范式，为LLM协作系统的架构设计提供了新思路。 2. 方法创新：设计了两阶段自我意识训练流程和巧妙的场景条件本地奖励函数，实现了智能体的独立训练与系统层面的协同自适应。 3. 性能优越：大量实验证明，DisRouter在多种成本敏感场景下，其效用 consistently超越现有竞争方法。 4. 实用性强：其模块化、灵活性、强泛化能力和低开销（路由开销不足总推理时间的5%）等特点，使其具备很高的实际部署潜力，能够适应动态变化的模型池和多样化的用户需求。
研究亮点
核心创新点：从“集中式外部评估”到“分布式内在自我评估”的范式转变。论文令人信服地论证了，利用LLM自身的自我意识进行路由决策，在逻辑上更合理，在实践中也更有效。
巧妙的训练设计：提出的两阶段训练流程，特别是将全局场景偏好（α）通过数学公式(1-α)^γ嵌入到本地RL奖励中的设计，是实现无通信协同自适应的关键，构思精巧且有效。
系统的验证体系：实验设计非常全面，不仅验证了核心性能，还深入分析了有效性原因（区分能力、内外评估对比、自我意识验证），并检验了框架的泛化性、模块化和场景适应性，构成了完整的证据链。
前瞻性讨论：论文指出DisRouter的分布式特性理论上支持更复杂的网络拓扑（如树状、网状结构），为未来构建更智能的Agent网络指明了方向。
其他有价值内容
论文在附录中进行了详细的时间开销分析，指出DisRouter的路由决策时间（即生成拒绝响应的时间）平均不到模型推理时间的5%，在 worst-case 下也不到5%，且系统延迟远低于FrugalGPT、AutoMix等需要中间生成或多次验证的方法，证明了其实际部署的可行性。此外，论文也严格遵守了可重复性研究原则，详细公开了数据集、模型、训练参数等所有细节。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问