面向海量数据的高效流水化检索增强生成系统

分享自：
面向海量数据的高效流水化检索增强生成系统

期刊:中国科学 :信息科学DOI:10.1360/ssi-2024-0331
本文介绍的研究论文《面向海量数据的高效流水化检索增强生成系统》（Efficient Pipeline for Retrieval-Augmented Generation System under Big Data）由余润杰、阳羽凡、周健（通信作者）、吴非共同完成，作者单位均为华中科技大学武汉光电国家研究中心和计算机科学与技术学院。该研究发表于《中国科学 :信息科学》（Scientia Sinica Informationis）2025年第55卷第3期，属于人工智能与信息检索交叉领域的前沿工作。
学术背景研究聚焦于检索增强生成（Retrieval-Augmented Generation, RAG）系统的性能优化问题。RAG通过结合外部知识检索（如近似最近邻搜索，Approximate Nearest Neighbor Search, ANNS）与大型语言模型（Large Language Model, LLM）的生成能力，显著提升了模型输出的准确性和时效性。然而，随着知识库规模膨胀至数百亿甚至万亿级别，传统基于内存的ANNS索引面临存储瓶颈，而基于磁盘的ANNS虽能扩展存储容量，却因磁盘I/O延迟导致RAG系统响应时间大幅增加。研究团队发现，在典型RAG工作流程中，基于磁盘的ANNS检索延迟占系统总响应时间的60%以上，成为性能瓶颈。因此，该研究旨在通过系统级流水线设计，重叠ANNS检索与LLM推理过程，从而掩盖磁盘检索延迟，提升RAG系统的整体效率。
研究方法与流程研究提出名为PiperAG的创新框架，其核心设计包含两项关键技术：
ANNS自适应预取机制
问题：传统ANNS需完整检索结束后才传递结果给LLM，导致串行延迟。若提前预取部分结果以启动LLM推理，可能因检索不完整而降低召回率（Recall@k）。
 
解决方案：动态调整预取时机与数量。通过量化近似集（Approximate Set, AS）的稳定性（即检索结果排序的一致性），结合反馈因子（反馈预取精度），实时计算预取窗口大小（公式1-3）。例如，当AS头部元素位置稳定时，预取更多结果；若检测到预取错误（如历史位置变动），则移除错误项。
 
技术实现：在SPANN和DiskANN算法中嵌入500行C++代码，实现低开销（时间复杂度O(1)）的自适应预取逻辑。
 
RAG动态流水线调度策略
问题：分块预填充（Chunked-Prefill）虽支持流水线并行，但过细的粒度会因GPU利用率下降增加额外开销。
 
解决方案：根据ANNS预取速度与分块预填充延迟的动态关系，调整分块大小。例如，若ANNS预取较慢，则采用细粒度分块以最大化重叠；反之则合并分块以减少GPU调度开销。
 
技术实现：基于Gemma-2B和OPT-1.3B模型实现分块预填充，并通过Python构建调度器，动态监控ANNS与LLM的任务状态。
 
实验结果研究在Wikipedia文本库（2000万条）和SQuAD等4个QA测试集上验证PiperAG的性能：
 - 响应延迟（TTFT）：相比基线系统（Srag、Drag），PiperAG将延迟降低25%-71%，部分场景下接近基于内存的HNSW方案（Hrag）。
 - 召回率损失：自适应预取机制将Recall@10损失控制在<3.6%（SQuAD测试集），显著优于静态预取策略（如策略一损失34%）。
 - 消融实验：动态流水线策略比固定粒度方案平均提升17%的吞吐量，且分块预填充的额外延迟降低1.8倍（图6,13）。
结论与价值PiperAG首次实现了ANNS检索与LLM推理的细粒度流水线化，其科学价值体现在：
 1. 方法论创新：通过系统级协同优化，解决了存储扩展与响应延迟的矛盾，为超大规模RAG部署提供新思路。
 2. 应用价值：可直接集成至现有向量数据库（如Faiss）和LLM服务框架，提升实际场景中的用户体验。
 3. 跨领域启发：自适应预取机制对其他需平衡精度与延迟的任务（如推荐系统）具有普适性。
研究亮点技术原创性：首个实现ANNS动态分割与LLM流水线并行的RAG系统。
 
性能突破：在保持召回率的前提下，将基于磁盘的RAG响应延迟降低至近内存方案水平。
 
开源贡献：代码已整合至主流ANNS算法（SPANN/DiskANN）和LLM模型（Gemma/OPT）。
 
其他价值研究还对比了多种ANNS算法（如基于图的HNSW、基于量化的PQ）在RAG中的适用性，为后续优化提供了基准数据。此外，提出的反馈控制机制可扩展至多模态检索等复杂场景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问