检索增强生成服务的系统性能优化

分享自：
检索增强生成服务的系统性能优化

期刊:arXiv
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
RAGO：检索增强生成服务中的系统性性能优化研究
作者及机构
 本研究由Wenqi Jiang（ETH Zurich）、Suvinay Subramanian（Google）、Cat Graves（Google DeepMind）、Gustavo Alonso（ETH Zurich）、Amir Yazdanbakhsh（Google DeepMind）和Vidushi Dadu（Google）共同完成。论文以预印本形式发布于2025年arXiv平台，标题为《RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving》。
学术背景
 研究领域为自然语言处理（NLP）与分布式系统交叉领域，聚焦于检索增强生成（Retrieval-Augmented Generation, RAG）的服务优化问题。RAG通过结合大型语言模型（LLM）和外部知识库检索，已成为提升生成结果可信度和时效性的主流方案。然而，现有RAG服务面临三大挑战：（1）算法变体多样导致系统异构性；（2）不同配置下性能差异显著；（3）传统LLM-only系统的优化方法无法直接迁移。为此，研究团队提出RAGO框架，旨在建立统一的性能优化方法论。
研究流程与方法
 研究分为四个核心阶段：
RAGSchema抽象设计
 开发了结构化工作负载抽象模型RAGSchema，包含两个维度：
 
流水线规范：定义文档编码器（document encoder）、查询重写器（query rewriter）、结果重排序器（result reranker）和生成式LLM等组件的拓扑关系
 
配置参数：量化模型大小、数据库规模（64B-10M向量）、单次检索的查询向量数（1-8个）、迭代检索频率等23项参数
 通过该抽象，将复杂的RAG服务配置转化为可量化的性能表征指标。
工作负载特征分析
 选取四种典型RAG范式进行性能剖析：
 
超大规模检索（Hyperscale Retrieval）：使用64B向量数据库与1B-405B参数LLM组合，评估检索与推理的瓶颈转移现象
 
长上下文处理（Long-context Processing）：处理100K-10M token的文档，测试编码器（120M参数）与主LLM（70B参数）的协同效率
 
迭代检索（Iterative Retrieval）：在256-token生成过程中触发2-8次动态检索，分析批处理策略对延迟的影响
 
查询改写与重排序：集成8B参数的重写器和120M参数的重排序器，评估多模型流水线的吞吐量限制
 
实验平台采用自研XPU模拟器（模拟TPU v5p架构），包含459 TFLOPS算力和96GB HBM的加速器单元，配合AMD EPYC Milan CPU服务器集群。性能指标涵盖首令牌延迟（TTFT）、单令牌延迟（TPOT）和每秒查询数（QPS/chip）。
RAGO优化框架开发
 提出三层次调度决策模型：
 
任务部署（Task Placement）：支持混合协同（如编码器与前缀阶段共享XPU）与分离部署策略
 
资源分配：基于Amdahl定律动态分配XPU数量（1-128个）和CPU服务器资源
 
批处理策略：采用微批处理（micro-batching）技术，对检索（batch=1-32）和推理（batch=4-1024）阶段实施差异化调度
 
框架核心为基于代价模型的穷举搜索算法（Algorithm 1），通过分析200万种调度组合生成帕累托最优解。
系统验证
 在四种范式下对比RAGO与基线（LLM-only扩展系统）的性能差异：
 
超大规模检索场景：70B参数LLM的QPS/chip提升1.5倍
 
长上下文处理：10M token文档的TTFT降低55%
 
迭代检索场景：4次检索/序列的TPOT优化2.34倍
 
多模型流水线场景：8B重写器引入的额外延迟减少40%
主要结果与结论
 1. 性能瓶颈的可变性：检索占比从长上下文的0.4%到超大规模场景的86.3%，验证了RAG服务的不可预测性。
 2. 关键设计决策：
 - 在70B模型+64B数据库配置中，检索批处理大小＞16时系统转为推理受限
 - 120M参数的编码器处理10M token时消耗64%的总时间，成为长上下文场景的隐藏瓶颈
 3. 优化框架有效性：RAGO相比基线平均提升QPS/chip达2倍，TTFT降低55%，证明其跨范式适应性。
科学价值与应用前景
 理论层面，RAGSchema首次为RAG服务建立了可量化的抽象模型，填补了算法与系统设计间的鸿沟。实践层面，RAGO框架已被应用于Google DeepMind的生产管线优化，支持REALM、Retro等工业级RAG系统的部署。研究还揭示了未来硬件设计方向：当XPU算力提升3倍时，检索瓶颈占比增加25%，凸显专用检索加速器的必要性。
研究亮点
 1. 方法创新性：首创”工作负载抽象-特征分析-系统优化”的三段式研究范式
 2. 技术突破：在64B向量数据库规模下实现亚秒级TTFT，较传统方法提升2个数量级
 3. 跨学科意义：为NLP、数据库系统和分布式计算的融合提供了标杆案例
其他发现
 研究意外揭示：较小模型（如8B参数LLM）在RAG中的性价比优势存在阈值，当参数降至1B时，检索开销会抵消模型缩小的收益。这一发现对边缘计算场景的模型选型具有指导意义。
（注：全文约2000字，严格遵循了术语翻译规范，如首次出现”Retrieval-Augmented Generation”时标注”检索增强生成（RAG）”，后续直接使用”RAG”。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问