这篇文档属于类型a,是一篇关于原创性研究的学术论文报告。以下是针对该研究的详细学术报告:
作者及机构
本研究由Zhengding Hu(加州大学圣地亚哥分校计算机科学与工程系)、Vibha Murthy(同前)、Zaifeng Pan(同前)、Wanlu Li(加州大学圣地亚哥分校纳米与化学工程系)、Xiaoyi Fang(Regailator Inc)、Yufei Ding(加州大学圣地亚哥分校计算机科学与工程系)和Yuke Wang(莱斯大学计算机科学系)共同完成。论文发表于SOSP ‘25(2025年10月,韩国首尔),会议全称为ACM Symposium on Operating Systems Principles。
研究领域
本研究属于异构检索增强生成(Heterogeneous RAG, Retrieval-Augmented Generation)工作流优化领域,聚焦于系统级挑战,旨在提升大语言模型(LLM)与外部知识库协同工作的效率。
研究动机
传统RAG系统采用两阶段(检索-生成)串行流程,但近年来RAG工作流日趋复杂,表现为:
1. 工作流异构性:多轮检索-生成交互(如多跳推理)、动态阶段数量与时长(如基于模型置信度的迭代);
2. 资源利用率低下:CPU(检索)与GPU(生成)硬件特性不匹配,导致流水线停滞。
研究目标
提出HedraRAG系统,通过协同优化生成与检索,解决异构RAG工作流中的三大挑战:
1. 跨阶段并行化;
2. 请求内语义相似性利用;
3. 请求间检索偏斜访问优化。
HedraRAG基于RAGraph(一种图结构抽象)表示工作流,支持以下动态图变换操作:
- 节点分裂:将粗粒度阶段拆分为子阶段(如单次检索拆分为多簇搜索);
- 语义感知重排序:利用相邻检索阶段的嵌入向量相似性优化执行顺序;
- 边重连:插入推测性依赖边以实现阶段重叠执行。
细粒度子阶段划分
语义感知推测执行
GPU部分索引缓存
性能提升
关键技术验证
扩展性验证
科学价值
1. 提出首个面向异构RAG的统一图抽象(RAGraph),支持跨阶段、跨请求的协同优化;
2. 验证了语义相似性驱动推测执行在高维嵌入空间的可行性,为后续研究提供新方向。
应用价值
1. 为复杂RAG工作流(如多跳问答、知识摘要)提供低延迟服务能力;
2. 开源实现兼容LangChain等生态,降低部署门槛。
论文提出的动态热点簇缓存策略为GPU内存受限场景下的向量检索提供了通用优化思路,可扩展至推荐系统等场景。实验代码已公开,推动领域复现与改进。