本文介绍的研究论文《面向海量数据的高效流水化检索增强生成系统》(Efficient Pipeline for Retrieval-Augmented Generation System under Big Data)由余润杰、阳羽凡、周健(通信作者)、吴非共同完成,作者单位均为华中科技大学武汉光电国家研究中心和计算机科学与技术学院。该研究发表于《中国科学 :信息科学》(Scientia Sinica Informationis)2025年第55卷第3期,属于人工智能与信息检索交叉领域的前沿工作。
研究聚焦于检索增强生成(Retrieval-Augmented Generation, RAG)系统的性能优化问题。RAG通过结合外部知识检索(如近似最近邻搜索,Approximate Nearest Neighbor Search, ANNS)与大型语言模型(Large Language Model, LLM)的生成能力,显著提升了模型输出的准确性和时效性。然而,随着知识库规模膨胀至数百亿甚至万亿级别,传统基于内存的ANNS索引面临存储瓶颈,而基于磁盘的ANNS虽能扩展存储容量,却因磁盘I/O延迟导致RAG系统响应时间大幅增加。研究团队发现,在典型RAG工作流程中,基于磁盘的ANNS检索延迟占系统总响应时间的60%以上,成为性能瓶颈。因此,该研究旨在通过系统级流水线设计,重叠ANNS检索与LLM推理过程,从而掩盖磁盘检索延迟,提升RAG系统的整体效率。
研究提出名为PiperAG的创新框架,其核心设计包含两项关键技术:
ANNS自适应预取机制
RAG动态流水线调度策略
研究在Wikipedia文本库(2000万条)和SQuAD等4个QA测试集上验证PiperAG的性能:
- 响应延迟(TTFT):相比基线系统(Srag、Drag),PiperAG将延迟降低25%-71%,部分场景下接近基于内存的HNSW方案(Hrag)。
- 召回率损失:自适应预取机制将Recall@10损失控制在<3.6%(SQuAD测试集),显著优于静态预取策略(如策略一损失34%)。
- 消融实验:动态流水线策略比固定粒度方案平均提升17%的吞吐量,且分块预填充的额外延迟降低1.8倍(图6,13)。
PiperAG首次实现了ANNS检索与LLM推理的细粒度流水线化,其科学价值体现在:
1. 方法论创新:通过系统级协同优化,解决了存储扩展与响应延迟的矛盾,为超大规模RAG部署提供新思路。
2. 应用价值:可直接集成至现有向量数据库(如Faiss)和LLM服务框架,提升实际场景中的用户体验。
3. 跨领域启发:自适应预取机制对其他需平衡精度与延迟的任务(如推荐系统)具有普适性。
研究还对比了多种ANNS算法(如基于图的HNSW、基于量化的PQ)在RAG中的适用性,为后续优化提供了基准数据。此外,提出的反馈控制机制可扩展至多模态检索等复杂场景。