分享自:

通过推测解码实现更快的级联

期刊:iclr

这是一篇类型a的原创性研究论文,题为《Faster Cascades via Speculative Decoding》,由来自Google Research、Google DeepMind和Mistral AI的研究团队(Harikrishna Narasimhan等)合作完成,发表于ICLR 2025。以下是对这项研究的详细学术报告:

主要作者及机构

该研究由跨机构团队完成,包括Google Research的Harikrishna Narasimhan、Wittawat Jitkrittum、Ankit Singh Rawat、Aditya Krishna Menon和Sanjiv Kumar;Google DeepMind的Seungyeon Kim;以及曾在Google工作的Mistral AI成员Neha Gupta†(†标注工作完成于Google期间)。论文发表于机器学习顶会ICLR 2025。


学术背景

研究领域与动机

研究聚焦于大语言模型(LLM)的高效推理优化领域,针对当前LLM推理延迟高、计算成本大的核心挑战。传统优化方法主要通过两种技术路径:
1. 级联模型(Cascades):通过”难度阈值”(如Chow规则)筛选输入,仅对”困难”样本调用大模型,在质量-成本权衡中表现优异,甚至可能超越单一模型性能。
2. **推测解码(Speculative# ICLR 2025论文《Faster Cascades via Speculative Decoding》研究报告

本文由Google Research、Google DeepMind和Mistral AI的研究团队合作完成,主要作者包括Harikrishna Narasimhan、Wittawat Jitkrittum、Ankit Singh Rawat、Seungyeon Kim、Neha Gupta、Aditya Krishna Menon和Sanjiv Kumar,发表于2025年的ICLR会议。

学术背景

该研究属于自然语言处理(NLP)领域,聚焦于大型语言模型(LLM)推理效率优化问题。随着LLM在各种NLP任务中表现出色,其推理延迟和计算成本问题日益突出。论文针对当前两种主流的推理优化方法——级联方法(Cascades)和推测解码(Speculative Decoding)——进行了深入分析和创新融合。

级联方法通过”困难输入”判断机制(deferral rule)选择性调用大模型,而推测解码则利用推测执行(speculative execution)并行验证小模型生成的草稿令牌。虽然两种方法都能提升效率,但各有优劣:级联能提供更好的质量-成本权衡,有时甚至能超越单独使用大模型的性能;推测解码则能保证质量无损的同时显著加速推理。

研究流程与方法

研究团队提出”推测级联”(Speculative Cascades)新方法,主要包含以下关键步骤和创新点:

  1. 框架设计:构建一个通用的推测执行框架,可模拟任意由起草者(drafter)和验证者(verifier)分布组成的目标分布(target distribution)。实验验证了损失推测采样(lossy speculative sampling)是该框架在特定目标分布下的特例。

  2. 级联规则实现:将常见级联规则(如Chow规则和置信度差异阈值法)以推测方式实现。通过把这些规则的目标分布代入框架,创建了对应的推测级联变体(speculative cascades)。

  3. 最优推迟规则:理论上推导了推测级联的最优推迟决策规则(optimal deferral rule),并设计了使用该规则插件估计的推测级联技术。该规则考虑了起草者与验证者分布之间的总变差距离(Total Variation distance, TV距离)。

  4. 令牌特定变体:提出令牌特定(token-specific)的推迟规则,解决了传统级联判断不够精细的问题。当起草模型产生的特定令牌质量较差时,即使整体分布很”尖锐”,也会触发推迟机制。

实验部分使用了Gemma和T5模型家族,在摘要生成(summarization)、翻译、推理、编码和问答等多种语言基准测试上进行验证。关键的创新算法包括:

  • 通用推测采样算法(Algorithm 4):使用自定义目标分布进行草稿验证
  • 推测级联算法(Algorithm 5):将级联推迟规则融入推测执行框架
  • 令牌特定推迟规则:通过三个变体(tokenv1-3)实现不同程度的精细控制

主要研究结果

实验数据表明,推测级联方法在质量和推理效率方面均优于传统级联和推测解码基线:

  1. 质量-成本权衡:在T5模型上的实验显示,使用最优推迟规则(opt)的推测级联能将推理延迟降低1.8-2.6倍(相比大模型),同时保持或提升模型质量。在Gemma 2B→27B的级联中,token特定规则在某些任务上超越了27B大模型本身的性能。

  2. 规则对比:令牌特定推迟规则(token)表现最佳,其次是opt规则。在WMT翻译任务上,使用token规则的推测级联获得了22.50的BLEU分数,远超大模型基线的16.56。

  3. 采样方式适应性:相比损失推测解码,推测级联在各种温度采样(temperature sampling)和top-p采样设置下都能提供更广泛的质量-效率权衡选项,特别在低温度/低p值情况下优势明显。

  4. 拒绝率分析:在相同的拒绝率(rejection rate)下,推测级联始终展示出更优的质量表现。例如在CNNDM摘要任务中,当拒绝率为15%时,推测级联的ROUGE-2分数比传统推测解码高出约0.5分。

研究结论与价值

该研究的主要贡献和创新点包括:

  1. 方法论创新:首次将级联方法与推测解码的技术优势系统性地结合,提出推测级联框架,为LLM推理优化提供了新的技术路径。

  2. 理论突破:推导出推测级联的最优推迟规则,明确将TV距离作为决策关键因素,为后续研究提供了理论基础。

  3. 实用价值:在各种实际NLP任务中验证了方法的有效性,特别是在资源受限场景下,为部署高质量LLM提供了可行性方案。

  4. 扩展性:研究的通用框架可兼容现有的各种推测解码优化技术(如medusa、eagle等),具有很好的扩展潜力。

研究亮点在于: - 首次系统分析并融合了两类主流LLM加速技术 - 提出的推迟规则兼顾理论最优性和工程可实现性 - 在多个模型家族和任务上展示了方法的通用性 - token特定规则突破了传统级联的粒度限制

这项研究为高效语言模型推理开辟了新方向,其提出的推测级联框架不仅适用于当前模型,也为未来更复杂模型的高效部署提供了方法论指导。论文最后指出,下一步可探索将插件估计器替换为基于真实样本训练的路由模型(router model),并扩展该方法到多模型级联场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com