分享自:

异构RAG工作流的协同优化生成与检索

期刊:sosp ’25DOI:10.1145/3731569.3764806

这篇文档属于类型a,是一篇关于原创性研究的学术论文报告。以下是针对该研究的详细学术报告:


作者及机构
本研究由Zhengding Hu(加州大学圣地亚哥分校计算机科学与工程系)、Vibha Murthy(同前)、Zaifeng Pan(同前)、Wanlu Li(加州大学圣地亚哥分校纳米与化学工程系)、Xiaoyi Fang(Regailator Inc)、Yufei Ding(加州大学圣地亚哥分校计算机科学与工程系)和Yuke Wang(莱斯大学计算机科学系)共同完成。论文发表于SOSP ‘25(2025年10月,韩国首尔),会议全称为ACM Symposium on Operating Systems Principles


学术背景

研究领域
本研究属于异构检索增强生成(Heterogeneous RAG, Retrieval-Augmented Generation)工作流优化领域,聚焦于系统级挑战,旨在提升大语言模型(LLM)与外部知识库协同工作的效率。

研究动机
传统RAG系统采用两阶段(检索-生成)串行流程,但近年来RAG工作流日趋复杂,表现为:
1. 工作流异构性:多轮检索-生成交互(如多跳推理)、动态阶段数量与时长(如基于模型置信度的迭代);
2. 资源利用率低下:CPU(检索)与GPU(生成)硬件特性不匹配,导致流水线停滞。

研究目标
提出HedraRAG系统,通过协同优化生成与检索,解决异构RAG工作流中的三大挑战:
1. 跨阶段并行化;
2. 请求内语义相似性利用;
3. 请求间检索偏斜访问优化。


研究方法与流程

核心创新:RAGraph抽象

HedraRAG基于RAGraph(一种图结构抽象)表示工作流,支持以下动态图变换操作:
- 节点分裂:将粗粒度阶段拆分为子阶段(如单次检索拆分为多簇搜索);
- 语义感知重排序:利用相邻检索阶段的嵌入向量相似性优化执行顺序;
- 边重连:插入推测性依赖边以实现阶段重叠执行。

关键技术流程

  1. 细粒度子阶段划分

    • 生成阶段:按解码步数划分,动态调整批次以匹配GPU吞吐量;
    • 检索阶段:按IVF索引簇划分,基于时间预算(公式1)动态合并簇,平衡CPU负载。
      *公式1*:通过建模分区收益(δ𝑙)确定最优子阶段时长𝑚𝑏,其中𝛽为调度开销,𝑡retrieval为检索平均延迟。
  2. 语义感知推测执行

    • 观察:相邻检索查询的嵌入距离比其与检索结果的更近(图7a),部分生成文本(22%-50% token)的嵌入与最终输出相似(图7b);
    • 策略
      • 推测生成:用部分检索结果提前启动生成,验证匹配后提交;
      • 推测检索:基于生成中间结果预取索引簇,降低PCIe传输延迟。
  3. GPU部分索引缓存

    • 热点簇识别:动态追踪簇访问频率(图8),异步更新GPU缓存(图11);
    • 混合检索引擎:CPU处理未缓存簇,GPU加速热点簇搜索,合并结果。

实验设计

  • 硬件:AMD EPYC 9534 CPU + NVIDIA H100 GPU;
  • 模型:Llama3-8B/Llama2-13B/OPT-30B;
  • 数据集:NaturalQuestions(NQ)、2WikiMultihopQA(WikiQA)、HotpotQA;
  • 基线对比:LangChain、FlashRAG及改进版异步框架。

主要结果

  1. 性能提升

    • 在线服务:相比基线,延迟降低2.2×-18.2×,吞吐量提升1.5×-5×(图13-15);
    • 异构工作流:多阶段工作流(如MultiStep、IRG)加速效果更显著(图14d-e),因动态分区缓解了检索-生成失衡。
  2. 关键技术验证

    • 子阶段划分:检索延迟减少1.09×-1.77×(图18);
    • 推测执行:准确率70%-90%时,速度提升1.06×-1.62×(图19);
    • GPU缓存:热点簇命中率69%-89%,检索加速1.12×-1.49×(图20)。
  3. 扩展性验证

    • 大模型(Llama2-13B/OPT-30B)下仍保持1.5×加速(图17),表明方法普适性。

结论与价值

科学价值
1. 提出首个面向异构RAG的统一图抽象(RAGraph),支持跨阶段、跨请求的协同优化;
2. 验证了语义相似性驱动推测执行在高维嵌入空间的可行性,为后续研究提供新方向。

应用价值
1. 为复杂RAG工作流(如多跳问答、知识摘要)提供低延迟服务能力;
2. 开源实现兼容LangChain等生态,降低部署门槛。


研究亮点

  1. 方法创新性:首次将图变换理论应用于RAG系统优化,突破传统两阶段流水线限制;
  2. 工程完备性:集成vLLM与Faiss的扩展接口,实现生产级可用性;
  3. 跨领域融合:结合NLP(语义嵌入)、系统(CPU-GPU协同)、算法(近似最近邻搜索)多学科技术。

其他价值

论文提出的动态热点簇缓存策略为GPU内存受限场景下的向量检索提供了通用优化思路,可扩展至推荐系统等场景。实验代码已公开,推动领域复现与改进。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com