分享自:

增强检索增强生成的自适应迭代检索方法

期刊:neurocomputingDOI:10.1016/j.neucom.2025.132272

本文介绍的是一项关于增强检索增强生成(Retrieval-Augmented Generation, RAG)系统的原创性研究。本研究由 Wenhan Han(埃因霍温理工大学)、Xiao Xiao(利物浦大学)、Yaohang Li(悉尼科技大学)、Jun Wang(伦敦大学学院)、Mykola Pechenizkiy(埃因霍温理工大学)和 Meng Fang(利物浦大学与埃因霍温理工大学共同署名)共同完成。研究成果以论文《Adaptive Iterative Retrieval for Enhanced Retrieval-Augmented Generation》的形式发表于 Neurocomputing 期刊,该论文在线发表于2025年12月2日,最终版本发表于2026年卷。

研究背景

本研究属于自然语言处理(Natural Language Processing, NLP)与人工智能领域,具体聚焦于大语言模型(Large Language Model, LLM)与外部知识库结合的检索增强生成技术。RAG技术通过为给定查询检索相关文档段落,为LLM提供最新或特定领域的信息,从而生成更准确、更可靠的回答,已成为解决LLM知识过时、幻觉等问题的重要范式。然而,现有RAG方法通常将检索视为一次性操作,忽略了检索器与LLM在生成过程中的动态交互与协同优化。尽管已有研究提出迭代检索策略(如Self-RAG, ActiveRAG, Iter-RetGen等),但这些方法往往仅优化检索器的排序功能,或仅进行检索后的文档精炼,且通常需要昂贵的重新训练或复杂的多阶段流程。更重要的是,现有方法未能充分解决检索器偏好与LLM偏好之间的对齐问题,这种错位可能导致检索到的上下文与LLM的生成需求不匹配,从而影响最终答案的准确性和相关性。因此,本研究旨在提出一个无需重训练、能自适应地、迭代地优化检索过程,同时提升文档相关性和LLM对齐性的新型框架。

研究详细工作流程

本研究提出了一个名为AIR-RAG(Adaptive Iterative Retrieval for RAG) 的创新框架。其核心思想是引入一个轻量级的中间适配器模型(Adapter),在检索管道中进行自适应迭代,以同时优化检索排名和文档精炼。整个工作流程主要分为两大阶段:离线偏好数据收集与适配器模型训练,以及在线自适应迭代检索推理

第一阶段:偏好数据收集与模型优化 此阶段的目标是训练适配器模型,使其学会根据LLM和检索器的联合偏好来选择最有利于最终答案生成的句子。

  1. 偏好数据收集:研究设计了一种巧妙的、间接收集检索器偏好的方法,避免了昂贵的人工标注。

    • 研究对象与样本:使用TriviaQA和HotpotQA数据集的训练集(仅使用查询和答案)作为数据源。对于每个查询,首先利用一个初始的适配器模型(研究中使用了GPT-3.5-turbo)从检索器返回的Top-K个段落中,采样生成多组(研究中为5组)句子选择列表(即选择哪些句子作为上下文)。
    • 处理与实验:对于每一组句子选择,将其输入给LLM(研究中为LLaMA-3-8B)生成答案。根据答案的正确与否,标记该句子选择为LLM的“偏好”或“非偏好”。接着,利用这些句子选择列表来增强原始查询,形成新的查询,进行第二次检索。同样使用初始适配器模型从第二次检索结果中生成新的句子列表,并再次用LLM评估答案正确性,以此评估第二次检索的质量,从而间接得出检索器的偏好(如果第二次检索得到的上下文能产生更正确的答案,则认为第一次的句子选择有利于检索器)。
    • 数据融合与加权:将LLM偏好和检索器偏好融合,形成包含四种权重的标签:强烈偏好(两者皆偏好)、弱偏好(仅LLM偏好)、弱非偏好(仅检索器偏好)、强烈非偏好(两者皆非偏好)。最终,共收集了约17,811个样本的偏好数据集。
  2. 模型优化(训练):使用收集到的加权偏好数据来训练适配器模型。

    • 方法:研究采用了一种名为加权卡尼曼-特沃斯基优化(Weighted Kahneman-Tversky Optimization, Weighted KTO) 的算法来训练适配器模型。KTO是一种高效的对齐算法,它只需“期望/不期望”的二元反馈,无需复杂的成对偏好比较,且基于前景理论,能更好地建模人类决策偏差(如损失厌恶)。研究的创新在于将四值权重系统(强/弱)融入KTO损失函数中,使得模型能更精细地区分不同强度的偏好信号,从而更有效地学习。
    • 模型细节:基础模型选用LLaMA-3.1-8B-Instruct,并采用低秩适应(Low-Rank Adaptation, LoRA)技术进行高效微调。训练目标是最小化加权KTO损失,使适配器模型学会生成更可能同时被LLM和检索器偏好的句子选择。

第二阶段:AIR-RAG在线推理流程 训练好的适配器模型被无缝集成到现有的RAG管道中,进行两轮迭代检索。

  1. 第一轮迭代:给定用户查询,检索器首先返回一组候选文档段落。每个段落中的句子被赋予唯一的句子ID。适配器模型分析这些段落,从中选择一小部分最相关的句子ID(及其对应句子)。这一步相当于一个精炼过滤器。
  2. 查询增强:将选中的句子ID(在实际处理时替换为句子文本)与原始查询拼接,形成一个新的、信息更丰富的增强查询。
  3. 第二轮迭代:使用增强后的查询进行第二次检索。检索器基于更精确的上下文进行查找,有望返回更相关或之前被忽略的文档。然后,适配器模型再次对第二轮检索结果进行精炼选择。
  4. 最终生成:将经过两轮精炼后选出的最终句子集合,连同原始查询,一并输入给LLM,生成最终答案。

整个流程的算法核心在于适配器模型,它作为一个智能中介,动态地调节流向LLM的信息,并通过迭代反馈循环,同时优化了检索查询(通过增强)和检索结果(通过选择)。

研究主要结果

研究在六个基准数据集上进行了广泛的实验评估,涵盖开放域问答(TriviaQA, PopQA)、多跳问答(HotpotQA, WikiMultihop)和事实核查(PubHealth, StrategyQA)三类任务,并与包括Naive RAG、RRR、Iter-RetGen、ActiveRAG、Self-RAG、Self-Ask等在内的多种先进基线方法进行了比较。主要结果如下:

  1. AIR-RAG性能显著优于基线:实验数据显示,AIR-RAG在大多数数据集和评估指标(准确率和由ChatGPT评估的正确率)上都取得了最佳或次优性能。例如,在使用LLaMA-3-8B作为生成器时,AIR-RAG在PopQA、TriviaQA、HotpotQA和WikiMultihop的多个指标上超越了所有其他RAG方法。这证明了AIR-RAG框架在提升RAG系统整体性能方面的有效性。

  2. 有效缓解参数知识抑制问题:研究观察到,强大的“直接生成”(无检索)和“朴素RAG”基线在某些数据集上表现也很强,因为LLM自身已具备相关知识。但当其他RAG方法提供不合适的上下文时,可能会干扰(抑制)LLM内部的知识调用。AIR-RAG通过精确过滤和选择上下文,显著减少了这种干扰,因此在TriviaQA等数据集上,它是唯一能同时超越“直接生成”和“朴素RAG”的方法。

  3. 强大的泛化能力:尽管适配器模型是基于LLaMA-3-8B的偏好训练的,但当生成器替换为GPT-3.5-turbo时,AIR-RAG依然表现出良好的性能提升。这表明适配器模型学习到的是过滤无关信息的通用能力,而不仅仅是适应某个特定LLM,体现了方法的鲁棒性。

  4. 消融实验验证关键设计

    • 适配器训练的有效性:与未经训练的基座模型或使用GPT-3.5作为适配器相比,经过加权KTO训练的适配器带来了显著的性能提升,证明了偏好对齐的必要性。
    • 加权KTO的优势:与非加权的KTO训练以及传统的监督微调(Supervised Fine-Tuning, SFT)相比,加权KTO能取得更好的效果,说明区分偏好强度对于模型收敛和性能至关重要。
    • 两轮迭代最优:对比1轮、2轮和3轮迭代,2轮迭代取得了最佳的整体性能。1轮迭代(仅过滤)已能带来提升,但2轮迭代通过查询增强能召回更多关键信息。3轮迭代则可能导致错误累积。
    • 计算效率:AIR-RAG的延迟略高于Self-Ask和Iter-RetGen,但显著优于SearchAin等方法。由于适配器模型较小且显著减少了输入LLM的文本长度,其资源需求相对较轻。
  5. 案例分析揭示工作机制:通过具体案例深入分析,研究发现AIR-RAG的改进源于适配器模型多种精妙的操作,例如:间接提示(提供背景但不直接给答案)、部分背景隐藏通过迭代检索发现新证据对相似内容的重排序以改变LLM关注点检索消融(在特定情况下隐藏所有检索内容)以及噪声操纵等。这些操作表明适配器模型并非简单地执行人类理解的“相关度排序”,而是学习了一种复杂的、基于LLM和检索器行为特性的协同策略。

结论

本研究成功提出了AIR-RAG,一个自适应迭代检索框架,用于增强检索增强生成系统。其核心贡献在于通过一个轻量级、可训练的适配器模型,在无需重训练基础检索器或LLM的前提下,实现了检索过程与LLM生成需求的动态、迭代对齐。该方法联合优化了检索相关性(通过迭代增强查询)和LLM对齐性(通过精炼过滤上下文),从而显著提升了多种问答和推理任务上的答案准确性与可靠性。

研究意义与价值

  • 科学价值

    1. 提出新的对齐视角:将RAG优化问题形式化为同时对齐检索器和LLM两种“智能体”偏好的问题,为理解和完善多组件AI系统协作提供了新思路。
    2. 创新方法框架:提出的AIR-RAG框架将迭代检索、查询增强、文档精炼和偏好学习有机结合,为RAG研究提供了一个高效且可扩展的新范式。
    3. 推进高效对齐技术应用:成功将加权KTO算法应用于复杂的管道对齐任务,展示了此类数据高效对齐方法在更广泛系统优化中的潜力。
  • 应用价值

    1. 即插即用:AIR-RAG可以与任何现成的检索器和LLM无缝集成,大大降低了在实际系统中部署先进RAG技术的门槛和计算成本。
    2. 提升可靠性:通过减少不相关上下文对LLM的干扰,提高了生成答案的准确性和事实性,这对于搜索引擎、智能客服、教育辅助、事实核查等关键应用场景至关重要。
    3. 领域泛化潜力:虽然主要验证在通用领域,但其框架对于医学、法律等专业领域同样具有应用前景,只需使用相应的领域数据进行偏好训练。

研究亮点

  1. 核心创新点:首次明确提出并实现了在RAG管道中同时对齐检索器和LLM的偏好,而非单独优化某一方。
  2. 方法新颖性:设计了间接的、基于结果的检索器偏好收集方法,避免了昂贵的人工相关性标注;并创新性地将加权KTO用于训练中间适配器模型。
  3. 卓越的性能:在多个具有挑战性的基准测试中取得领先性能,特别是在处理需要多跳推理和应对参数知识抑制的场景下优势明显。
  4. 实用性与效率:框架无需重训练大型模型,计算开销相对较小,具有良好的泛化能力和实用性。

其他有价值内容

研究还讨论了AIR-RAG的局限性,例如当前方法主要基于句子级选择,未来可探索词元级或多粒度选择;以及虽然在PubHealth上进行了初步测试,但在医学、法律等高度专业化领域的全面评估仍有待进行。这些为后续研究指明了方向。此外,附录提供了详细的算法伪代码、更多的案例分析以及训练与测试集领域分布的可视化,确保了研究的可复现性和深度。作者已公开匿名代码与数据,进一步促进了学术共享与验证。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com