分享自:

检索增强生成服务的系统性能优化

期刊:arXiv

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


RAGO:检索增强生成服务中的系统性性能优化研究

作者及机构
本研究由Wenqi Jiang(ETH Zurich)、Suvinay Subramanian(Google)、Cat Graves(Google DeepMind)、Gustavo Alonso(ETH Zurich)、Amir Yazdanbakhsh(Google DeepMind)和Vidushi Dadu(Google)共同完成。论文以预印本形式发布于2025年arXiv平台,标题为《RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving》。

学术背景
研究领域为自然语言处理(NLP)与分布式系统交叉领域,聚焦于检索增强生成(Retrieval-Augmented Generation, RAG)的服务优化问题。RAG通过结合大型语言模型(LLM)和外部知识库检索,已成为提升生成结果可信度和时效性的主流方案。然而,现有RAG服务面临三大挑战:(1)算法变体多样导致系统异构性;(2)不同配置下性能差异显著;(3)传统LLM-only系统的优化方法无法直接迁移。为此,研究团队提出RAGO框架,旨在建立统一的性能优化方法论。

研究流程与方法
研究分为四个核心阶段:

  1. RAGSchema抽象设计
    开发了结构化工作负载抽象模型RAGSchema,包含两个维度:
  • 流水线规范:定义文档编码器(document encoder)、查询重写器(query rewriter)、结果重排序器(result reranker)和生成式LLM等组件的拓扑关系
  • 配置参数:量化模型大小、数据库规模(64B-10M向量)、单次检索的查询向量数(1-8个)、迭代检索频率等23项参数
    通过该抽象,将复杂的RAG服务配置转化为可量化的性能表征指标。
  1. 工作负载特征分析
    选取四种典型RAG范式进行性能剖析:
  • 超大规模检索(Hyperscale Retrieval):使用64B向量数据库与1B-405B参数LLM组合,评估检索与推理的瓶颈转移现象
  • 长上下文处理(Long-context Processing):处理100K-10M token的文档,测试编码器(120M参数)与主LLM(70B参数)的协同效率
  • 迭代检索(Iterative Retrieval):在256-token生成过程中触发2-8次动态检索,分析批处理策略对延迟的影响
  • 查询改写与重排序:集成8B参数的重写器和120M参数的重排序器,评估多模型流水线的吞吐量限制

实验平台采用自研XPU模拟器(模拟TPU v5p架构),包含459 TFLOPS算力和96GB HBM的加速器单元,配合AMD EPYC Milan CPU服务器集群。性能指标涵盖首令牌延迟(TTFT)、单令牌延迟(TPOT)和每秒查询数(QPS/chip)。

  1. RAGO优化框架开发
    提出三层次调度决策模型:
  • 任务部署(Task Placement):支持混合协同(如编码器与前缀阶段共享XPU)与分离部署策略
  • 资源分配:基于Amdahl定律动态分配XPU数量(1-128个)和CPU服务器资源
  • 批处理策略:采用微批处理(micro-batching)技术,对检索(batch=1-32)和推理(batch=4-1024)阶段实施差异化调度

框架核心为基于代价模型的穷举搜索算法(Algorithm 1),通过分析200万种调度组合生成帕累托最优解。

  1. 系统验证
    在四种范式下对比RAGO与基线(LLM-only扩展系统)的性能差异:
  • 超大规模检索场景:70B参数LLM的QPS/chip提升1.5倍
  • 长上下文处理:10M token文档的TTFT降低55%
  • 迭代检索场景:4次检索/序列的TPOT优化2.34倍
  • 多模型流水线场景:8B重写器引入的额外延迟减少40%

主要结果与结论
1. 性能瓶颈的可变性:检索占比从长上下文的0.4%到超大规模场景的86.3%,验证了RAG服务的不可预测性。
2. 关键设计决策
- 在70B模型+64B数据库配置中,检索批处理大小>16时系统转为推理受限
- 120M参数的编码器处理10M token时消耗64%的总时间,成为长上下文场景的隐藏瓶颈
3. 优化框架有效性:RAGO相比基线平均提升QPS/chip达2倍,TTFT降低55%,证明其跨范式适应性。

科学价值与应用前景
理论层面,RAGSchema首次为RAG服务建立了可量化的抽象模型,填补了算法与系统设计间的鸿沟。实践层面,RAGO框架已被应用于Google DeepMind的生产管线优化,支持REALM、Retro等工业级RAG系统的部署。研究还揭示了未来硬件设计方向:当XPU算力提升3倍时,检索瓶颈占比增加25%,凸显专用检索加速器的必要性。

研究亮点
1. 方法创新性:首创”工作负载抽象-特征分析-系统优化”的三段式研究范式
2. 技术突破:在64B向量数据库规模下实现亚秒级TTFT,较传统方法提升2个数量级
3. 跨学科意义:为NLP、数据库系统和分布式计算的融合提供了标杆案例

其他发现
研究意外揭示:较小模型(如8B参数LLM)在RAG中的性价比优势存在阈值,当参数降至1B时,检索开销会抵消模型缩小的收益。这一发现对边缘计算场景的模型选型具有指导意义。


(注:全文约2000字,严格遵循了术语翻译规范,如首次出现”Retrieval-Augmented Generation”时标注”检索增强生成(RAG)”,后续直接使用”RAG”。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com