本文档是一篇提交至国际机器学习顶级会议ICLR 2026进行双盲评审的学术论文,标题为“Universal Model Routing for Efficient LLM Inference”(高效大语言模型推理的通用模型路由技术)。论文作者为匿名。
论文主题与背景
这篇论文的研究领域属于高效人工智能,具体聚焦于大语言模型(Large Language Models, LLMs)的推理优化。随着以GPT、LLaMA、DeepSeek等为代表的LLMs能力飞速提升,其巨大的计算成本和推理开销成为实际部署中的主要障碍。为了在保证任务完成质量的同时降低成本,研究者们提出了多种技术,如推测解码(speculative decoding)、提前退出(early-exiting)、模型量化(quantisation)和压缩(compression)等。其中,“模型路由”(model routing)是一种直观且有效的思路:维护一个包含不同规模和能力的LLM候选池,对于每个输入提示(prompt),通过一个“路由器”(router)将其分配给能够胜任该任务的最小(即成本最低)的模型。这样,昂贵的大型模型仅被用于处理少数真正“困难”的提示,从而在整体上实现成本与性能的平衡。
然而,现有的大多数模型路由研究工作都基于一个静态的、固定的LLM池。这意味着路由器是针对一组特定的、训练时已知的模型进行学习和优化的。在实际应用中,LLM的生态是动态变化的:新的、更强大的模型不断发布,旧模型可能被淘汰,或者由于资源调度、许可协议等原因,在测试时可用的模型集合(pool)可能与训练时完全不同。面对这种动态性,现有方法面临挑战:要么继续使用旧的、未包含新模型的静态路由器,导致无法利用新模型的优势;要么为每个新的模型池重新训练路由器,这会带来巨大的标注成本、训练开销和工程部署负担。
针对这一核心问题,本文提出了名为 UniRoute 的新方法,旨在解决“动态LLM池”下的模型路由问题。其核心目标是:训练一个通用的路由器,使其能够泛化到训练时未曾见过的、新的LLM,而无需针对每个新模型或新模型池进行重新训练。这大大提升了路由系统的灵活性和实用性。
主要观点与论述
观点一:提出基于LLM特征表示的通用路由框架UniRoute,其核心是将LLM表示为特征向量。 论文首先形式化定义了动态LLM池下的路由问题:训练时观察到的LLM集合(H_tr)和测试时使用的LLM集合(H_te)可以不同,甚至没有交集(H_tr ∩ H_te = ∅)。目标是学习一个动态路由器,其输入不仅是提示x,还包括当前的候选模型池H,输出是池中最佳模型的索引。 为了实现对未知模型的泛化,UniRoute的关键创新在于为LLM构建一个通用的特征表示(feature representation)。具体而言,论文提出,任何一个LLM(h)都可以通过其在一个小的、有代表性的验证提示集(S_val)上的预测错误向量来表征。即,对于一个包含n_val个样本的验证集,计算该LLM在每个样本上的0-1损失(预测正确与否),得到一个n_val维的向量。这个向量捕捉了该LLM在不同类型提示上的性能模式。 基于此,论文提出了一个通用的参数化形式:γ_uni(x, h) = φ(x)^T ψ(h)。其中,φ(x)是将提示x映射到k维特征向量的函数(例如,使用现成的文本嵌入模型如BERT、Sentence-T5等,并可进行线性投影);ψ(h)是将LLM h映射到k维特征向量的函数(即上述错误向量的某种压缩表示f)。这样,预测一个LLM在某个提示上的预期损失,就转化为计算提示特征和LLM特征的点积。在测试时,对于新的LLM,只需计算其ψ(h)(即评估它在验证集S_val上的表现),然后即可通过上述点积公式估计其在新提示上的性能,并结合成本通过公式(8)进行路由决策。这种方法类似于零样本分类中的语义输出编码,实现了对未知模型的“即插即用”。
观点二:提出了两种具体、有效且理论上有依据的UniRoute实例化方法:基于聚类的路由和基于学习的聚类映射。
论文指出,先前工作中提出的k近邻(k-NN)路由器实际上是UniRoute的一个特例(当ψ(h)取原始错误向量,φ(x)取最近邻指示向量时)。但k-NN方法仅能利用有限的验证集信息,且未利用可能更大的训练集。为此,论文提出了两种更高效的实例化方案。
第一种是基于K均值聚类的路由(UniRoute k-means)。其工作流程如图1所示: (1) 使用一个文本嵌入器(如Gecko 1b)将训练集(S_tr)中的所有提示映射为向量,并对这些向量进行K均值聚类,得到K个簇中心。这定义了一个硬分配函数φ_clust(x),将任意提示x分配到其所属的簇(一个K维的one-hot向量)。 (2) 将验证集(S_val)中的每个提示也分配到上述K个簇中,形成K个验证子集。 (3) 对于任何一个LLM h(包括未见过的测试LLM),计算其在每个验证子集上的平均错误率,得到一个K维向量ψ_clust(h),即该LLM的“每簇错误率”特征。 (4) 在路由时,对于一个新提示x,将其分配到第k个簇,然后选择使得“第k簇错误率 + λ * 模型成本”最小的LLM。这种方法直观地用一个LLM在相似提示(同簇)上的平均表现,来估计其在当前提示上的表现。
第二种是基于学习的聚类映射路由(UniRoute learnedmap)。为了进一步提升性能,论文提出可以学习一个“软”的聚类分配函数φ_clust(x; θ)。具体地,不再将提示硬性分配到一个簇,而是通过一个参数化的softmax函数(φ_clust,k(x; θ) ∝ exp(θ_k^T φ(x)))将提示映射到一个在K个簇上的概率分布。参数θ通过最大化训练集上关于已知训练LLM正确/错误标签的对数似然来学习。这样,在估计LLM h在提示x上的损失时,使用的是该LLM的每簇错误率向量ψ_clust(h)与提示的软分配概率向量的加权平均。这种方法能够以有监督的方式学习更优的提示-簇映射关系,从而可能获得更精确的性能估计。
观点三:为提出的聚类路由方法提供了理论上的合理性证明和风险界分析。
论文通过两个命题为UniRoute提供了理论支撑。 命题1 推导了在动态LLM池设置下,基于0-1损失的最优贝叶斯路由规则。该规则表明,最优路由器应为每个提示选择期望损失(即错误概率)经过成本调整(λ * c(h))后最小的模型。这为实践中广泛使用的“损失估计器+成本调整”的路由范式(如公式(8))提供了理论依据。UniRoute正是在估计这个最优规则中的期望损失项γ*(x, h)。 命题2 则专门针对上述聚类路由方法,给出了其风险(错误路由的代价)与最优贝叶斯路由器风险之间差距的上界(excess risk bound)。该上界表明,差距受限于每个LLM在单个提示上的错误率与其所属簇的平均错误率之间的差异(Δ_k(x, h))的期望。这从理论上解释了聚类路由的有效性:如果数据分布本身具有聚类结构(即同一簇内的提示对于同一LLM具有相似的错误概率),那么这种基于簇平均的估计就会很准确,从而路由性能接近最优。这为使用聚类方法提供了理论背书。
观点四:通过大量实验验证了UniRoute在动态LLM池场景下的有效性和优越性。 论文在多个公开基准数据集上进行了广泛的实验,包括EmbedLLM、RouterBench、一个数学+代码数据集、Sprout O3-mini、Headlines等。实验设置严格模拟动态场景:将可用LLM划分为互不相交的训练集和测试集,路由器仅在训练LLM和训练提示数据上学习,然后在从未见过的测试LLM和测试提示上进行评估。 评估指标采用“延迟曲线”(deferral curve)及其衍生的两个量化指标:质量中性成本(Quality-Neutral Cost, QNC,指达到与最准确LLM相同性能所需的最小相对成本,越低越好)和曲线下面积(Area,越高越好)。论文将UniRoute的两种实例化方法与多种基线进行比较:(1) 动态路由基线:包括ZeroRouter(一种随机选择帕累托最优模型的简单方法)和k-NN路由。(2) 静态路由基线(重新训练):为了对比,论文还包含了针对新LLM池在小型验证集上重新训练的多层感知机(MLP)和矩阵分解(Matrix Factorization)路由器,这些方法容易过拟合且不实用。 实验结果 清晰表明:UniRoute(无论是k-means还是learnedmap版本)在多个数据集上 consistently 取得了优于基线的质量-成本权衡。特别是在包含30+个未见LLM的EmbedLLM数据集上,UniRoute相比k-NN和重新训练的静态路由器展示了显著优势。图2的汇总数据显示,UniRoute (learnedmap) 在EmbedLLM上取得了最低的QNC(33.1%)和最高的Area(0.652),且统计显著性检验表明其优于大多数基线。此外,论文还验证了UniRoute在验证集规模较小(见图2底部)、聚类数k选择不同等条件下的鲁棒性。附录中的实验还表明,UniRoute的LLM特征表示能够将能力相似的模型映射到特征空间中相近的位置,这印证了其表示方法的合理性。
论文的意义与价值 本研究的科学价值在于首次系统性地形式化并解决了动态LLM池下的模型路由问题,提出了一个通用、灵活且理论 grounded 的解决方案UniRoute。其方法的核心——将LLM表示为基于性能的特征向量——简洁而有力,为后续研究开辟了新的方向。从应用价值看,UniRoute使得路由系统能够无缝集成新发布或新可用的LLM,无需昂贵的重新训练和复杂的重新部署,极大地降低了在快速变化的LLM生态中维持高效推理系统的运维成本和工程负担。这对于提供LLM API服务的企业、需要组合使用多种开源/闭源模型的开发者,以及任何关注推理效率的用户都具有重要的实际意义。
亮点总结
其他有价值内容
论文在讨论部分也坦诚地指出了UniRoute的局限性及未来方向:例如,在完全静态的LLM池设定下,UniRoute不一定能超越专门针对该池优化的静态路由器;可以探索混合静态-动态的路由器设计;对LLM特征表示函数ψ(·)的设计空间( beyond 聚类方法)可以进行更系统的探索;以及如何为验证集S_val选择更具代表性(如通过核心集选择)的提示子集等。这些都为后续研究提供了清晰的指引。