本文介绍的是一项关于增强检索增强生成(Retrieval-Augmented Generation, RAG)系统的原创性研究。本研究由 Wenhan Han(埃因霍温理工大学)、Xiao Xiao(利物浦大学)、Yaohang Li(悉尼科技大学)、Jun Wang(伦敦大学学院)、Mykola Pechenizkiy(埃因霍温理工大学)和 Meng Fang(利物浦大学与埃因霍温理工大学共同署名)共同完成。研究成果以论文《Adaptive Iterative Retrieval for Enhanced Retrieval-Augmented Generation》的形式发表于 Neurocomputing 期刊,该论文在线发表于2025年12月2日,最终版本发表于2026年卷。
本研究属于自然语言处理(Natural Language Processing, NLP)与人工智能领域,具体聚焦于大语言模型(Large Language Model, LLM)与外部知识库结合的检索增强生成技术。RAG技术通过为给定查询检索相关文档段落,为LLM提供最新或特定领域的信息,从而生成更准确、更可靠的回答,已成为解决LLM知识过时、幻觉等问题的重要范式。然而,现有RAG方法通常将检索视为一次性操作,忽略了检索器与LLM在生成过程中的动态交互与协同优化。尽管已有研究提出迭代检索策略(如Self-RAG, ActiveRAG, Iter-RetGen等),但这些方法往往仅优化检索器的排序功能,或仅进行检索后的文档精炼,且通常需要昂贵的重新训练或复杂的多阶段流程。更重要的是,现有方法未能充分解决检索器偏好与LLM偏好之间的对齐问题,这种错位可能导致检索到的上下文与LLM的生成需求不匹配,从而影响最终答案的准确性和相关性。因此,本研究旨在提出一个无需重训练、能自适应地、迭代地优化检索过程,同时提升文档相关性和LLM对齐性的新型框架。
本研究提出了一个名为AIR-RAG(Adaptive Iterative Retrieval for RAG) 的创新框架。其核心思想是引入一个轻量级的中间适配器模型(Adapter),在检索管道中进行自适应迭代,以同时优化检索排名和文档精炼。整个工作流程主要分为两大阶段:离线偏好数据收集与适配器模型训练,以及在线自适应迭代检索推理。
第一阶段:偏好数据收集与模型优化 此阶段的目标是训练适配器模型,使其学会根据LLM和检索器的联合偏好来选择最有利于最终答案生成的句子。
偏好数据收集:研究设计了一种巧妙的、间接收集检索器偏好的方法,避免了昂贵的人工标注。
模型优化(训练):使用收集到的加权偏好数据来训练适配器模型。
第二阶段:AIR-RAG在线推理流程 训练好的适配器模型被无缝集成到现有的RAG管道中,进行两轮迭代检索。
整个流程的算法核心在于适配器模型,它作为一个智能中介,动态地调节流向LLM的信息,并通过迭代反馈循环,同时优化了检索查询(通过增强)和检索结果(通过选择)。
研究在六个基准数据集上进行了广泛的实验评估,涵盖开放域问答(TriviaQA, PopQA)、多跳问答(HotpotQA, WikiMultihop)和事实核查(PubHealth, StrategyQA)三类任务,并与包括Naive RAG、RRR、Iter-RetGen、ActiveRAG、Self-RAG、Self-Ask等在内的多种先进基线方法进行了比较。主要结果如下:
AIR-RAG性能显著优于基线:实验数据显示,AIR-RAG在大多数数据集和评估指标(准确率和由ChatGPT评估的正确率)上都取得了最佳或次优性能。例如,在使用LLaMA-3-8B作为生成器时,AIR-RAG在PopQA、TriviaQA、HotpotQA和WikiMultihop的多个指标上超越了所有其他RAG方法。这证明了AIR-RAG框架在提升RAG系统整体性能方面的有效性。
有效缓解参数知识抑制问题:研究观察到,强大的“直接生成”(无检索)和“朴素RAG”基线在某些数据集上表现也很强,因为LLM自身已具备相关知识。但当其他RAG方法提供不合适的上下文时,可能会干扰(抑制)LLM内部的知识调用。AIR-RAG通过精确过滤和选择上下文,显著减少了这种干扰,因此在TriviaQA等数据集上,它是唯一能同时超越“直接生成”和“朴素RAG”的方法。
强大的泛化能力:尽管适配器模型是基于LLaMA-3-8B的偏好训练的,但当生成器替换为GPT-3.5-turbo时,AIR-RAG依然表现出良好的性能提升。这表明适配器模型学习到的是过滤无关信息的通用能力,而不仅仅是适应某个特定LLM,体现了方法的鲁棒性。
消融实验验证关键设计:
案例分析揭示工作机制:通过具体案例深入分析,研究发现AIR-RAG的改进源于适配器模型多种精妙的操作,例如:间接提示(提供背景但不直接给答案)、部分背景隐藏、通过迭代检索发现新证据、对相似内容的重排序以改变LLM关注点、检索消融(在特定情况下隐藏所有检索内容)以及噪声操纵等。这些操作表明适配器模型并非简单地执行人类理解的“相关度排序”,而是学习了一种复杂的、基于LLM和检索器行为特性的协同策略。
本研究成功提出了AIR-RAG,一个自适应迭代检索框架,用于增强检索增强生成系统。其核心贡献在于通过一个轻量级、可训练的适配器模型,在无需重训练基础检索器或LLM的前提下,实现了检索过程与LLM生成需求的动态、迭代对齐。该方法联合优化了检索相关性(通过迭代增强查询)和LLM对齐性(通过精炼过滤上下文),从而显著提升了多种问答和推理任务上的答案准确性与可靠性。
科学价值:
应用价值:
研究还讨论了AIR-RAG的局限性,例如当前方法主要基于句子级选择,未来可探索词元级或多粒度选择;以及虽然在PubHealth上进行了初步测试,但在医学、法律等高度专业化领域的全面评估仍有待进行。这些为后续研究指明了方向。此外,附录提供了详细的算法伪代码、更多的案例分析以及训练与测试集领域分布的可视化,确保了研究的可复现性和深度。作者已公开匿名代码与数据,进一步促进了学术共享与验证。