增强检索增强生成的自适应迭代检索方法

分享自：
增强检索增强生成的自适应迭代检索方法

期刊:neurocomputingDOI:10.1016/j.neucom.2025.132272
本文介绍的是一项关于增强检索增强生成（Retrieval-Augmented Generation, RAG）系统的原创性研究。本研究由 Wenhan Han（埃因霍温理工大学）、Xiao Xiao（利物浦大学）、Yaohang Li（悉尼科技大学）、Jun Wang（伦敦大学学院）、Mykola Pechenizkiy（埃因霍温理工大学）和 Meng Fang（利物浦大学与埃因霍温理工大学共同署名）共同完成。研究成果以论文《Adaptive Iterative Retrieval for Enhanced Retrieval-Augmented Generation》的形式发表于 Neurocomputing 期刊，该论文在线发表于2025年12月2日，最终版本发表于2026年卷。
研究背景本研究属于自然语言处理（Natural Language Processing, NLP）与人工智能领域，具体聚焦于大语言模型（Large Language Model, LLM）与外部知识库结合的检索增强生成技术。RAG技术通过为给定查询检索相关文档段落，为LLM提供最新或特定领域的信息，从而生成更准确、更可靠的回答，已成为解决LLM知识过时、幻觉等问题的重要范式。然而，现有RAG方法通常将检索视为一次性操作，忽略了检索器与LLM在生成过程中的动态交互与协同优化。尽管已有研究提出迭代检索策略（如Self-RAG, ActiveRAG, Iter-RetGen等），但这些方法往往仅优化检索器的排序功能，或仅进行检索后的文档精炼，且通常需要昂贵的重新训练或复杂的多阶段流程。更重要的是，现有方法未能充分解决检索器偏好与LLM偏好之间的对齐问题，这种错位可能导致检索到的上下文与LLM的生成需求不匹配，从而影响最终答案的准确性和相关性。因此，本研究旨在提出一个无需重训练、能自适应地、迭代地优化检索过程，同时提升文档相关性和LLM对齐性的新型框架。
研究详细工作流程本研究提出了一个名为AIR-RAG（Adaptive Iterative Retrieval for RAG） 的创新框架。其核心思想是引入一个轻量级的中间适配器模型（Adapter），在检索管道中进行自适应迭代，以同时优化检索排名和文档精炼。整个工作流程主要分为两大阶段：离线偏好数据收集与适配器模型训练，以及在线自适应迭代检索推理。
第一阶段：偏好数据收集与模型优化 此阶段的目标是训练适配器模型，使其学会根据LLM和检索器的联合偏好来选择最有利于最终答案生成的句子。
偏好数据收集：研究设计了一种巧妙的、间接收集检索器偏好的方法，避免了昂贵的人工标注。
研究对象与样本：使用TriviaQA和HotpotQA数据集的训练集（仅使用查询和答案）作为数据源。对于每个查询，首先利用一个初始的适配器模型（研究中使用了GPT-3.5-turbo）从检索器返回的Top-K个段落中，采样生成多组（研究中为5组）句子选择列表（即选择哪些句子作为上下文）。
处理与实验：对于每一组句子选择，将其输入给LLM（研究中为LLaMA-3-8B）生成答案。根据答案的正确与否，标记该句子选择为LLM的“偏好”或“非偏好”。接着，利用这些句子选择列表来增强原始查询，形成新的查询，进行第二次检索。同样使用初始适配器模型从第二次检索结果中生成新的句子列表，并再次用LLM评估答案正确性，以此评估第二次检索的质量，从而间接得出检索器的偏好（如果第二次检索得到的上下文能产生更正确的答案，则认为第一次的句子选择有利于检索器）。
数据融合与加权：将LLM偏好和检索器偏好融合，形成包含四种权重的标签：强烈偏好（两者皆偏好）、弱偏好（仅LLM偏好）、弱非偏好（仅检索器偏好）、强烈非偏好（两者皆非偏好）。最终，共收集了约17,811个样本的偏好数据集。
模型优化（训练）：使用收集到的加权偏好数据来训练适配器模型。
方法：研究采用了一种名为加权卡尼曼-特沃斯基优化（Weighted Kahneman-Tversky Optimization, Weighted KTO） 的算法来训练适配器模型。KTO是一种高效的对齐算法，它只需“期望/不期望”的二元反馈，无需复杂的成对偏好比较，且基于前景理论，能更好地建模人类决策偏差（如损失厌恶）。研究的创新在于将四值权重系统（强/弱）融入KTO损失函数中，使得模型能更精细地区分不同强度的偏好信号，从而更有效地学习。
模型细节：基础模型选用LLaMA-3.1-8B-Instruct，并采用低秩适应（Low-Rank Adaptation, LoRA）技术进行高效微调。训练目标是最小化加权KTO损失，使适配器模型学会生成更可能同时被LLM和检索器偏好的句子选择。
第二阶段：AIR-RAG在线推理流程 训练好的适配器模型被无缝集成到现有的RAG管道中，进行两轮迭代检索。
第一轮迭代：给定用户查询，检索器首先返回一组候选文档段落。每个段落中的句子被赋予唯一的句子ID。适配器模型分析这些段落，从中选择一小部分最相关的句子ID（及其对应句子）。这一步相当于一个精炼过滤器。
查询增强：将选中的句子ID（在实际处理时替换为句子文本）与原始查询拼接，形成一个新的、信息更丰富的增强查询。
第二轮迭代：使用增强后的查询进行第二次检索。检索器基于更精确的上下文进行查找，有望返回更相关或之前被忽略的文档。然后，适配器模型再次对第二轮检索结果进行精炼选择。
最终生成：将经过两轮精炼后选出的最终句子集合，连同原始查询，一并输入给LLM，生成最终答案。
整个流程的算法核心在于适配器模型，它作为一个智能中介，动态地调节流向LLM的信息，并通过迭代反馈循环，同时优化了检索查询（通过增强）和检索结果（通过选择）。
研究主要结果研究在六个基准数据集上进行了广泛的实验评估，涵盖开放域问答（TriviaQA, PopQA）、多跳问答（HotpotQA, WikiMultihop）和事实核查（PubHealth, StrategyQA）三类任务，并与包括Naive RAG、RRR、Iter-RetGen、ActiveRAG、Self-RAG、Self-Ask等在内的多种先进基线方法进行了比较。主要结果如下：
AIR-RAG性能显著优于基线：实验数据显示，AIR-RAG在大多数数据集和评估指标（准确率和由ChatGPT评估的正确率）上都取得了最佳或次优性能。例如，在使用LLaMA-3-8B作为生成器时，AIR-RAG在PopQA、TriviaQA、HotpotQA和WikiMultihop的多个指标上超越了所有其他RAG方法。这证明了AIR-RAG框架在提升RAG系统整体性能方面的有效性。
有效缓解参数知识抑制问题：研究观察到，强大的“直接生成”（无检索）和“朴素RAG”基线在某些数据集上表现也很强，因为LLM自身已具备相关知识。但当其他RAG方法提供不合适的上下文时，可能会干扰（抑制）LLM内部的知识调用。AIR-RAG通过精确过滤和选择上下文，显著减少了这种干扰，因此在TriviaQA等数据集上，它是唯一能同时超越“直接生成”和“朴素RAG”的方法。
强大的泛化能力：尽管适配器模型是基于LLaMA-3-8B的偏好训练的，但当生成器替换为GPT-3.5-turbo时，AIR-RAG依然表现出良好的性能提升。这表明适配器模型学习到的是过滤无关信息的通用能力，而不仅仅是适应某个特定LLM，体现了方法的鲁棒性。
消融实验验证关键设计：
适配器训练的有效性：与未经训练的基座模型或使用GPT-3.5作为适配器相比，经过加权KTO训练的适配器带来了显著的性能提升，证明了偏好对齐的必要性。
加权KTO的优势：与非加权的KTO训练以及传统的监督微调（Supervised Fine-Tuning, SFT）相比，加权KTO能取得更好的效果，说明区分偏好强度对于模型收敛和性能至关重要。
两轮迭代最优：对比1轮、2轮和3轮迭代，2轮迭代取得了最佳的整体性能。1轮迭代（仅过滤）已能带来提升，但2轮迭代通过查询增强能召回更多关键信息。3轮迭代则可能导致错误累积。
计算效率：AIR-RAG的延迟略高于Self-Ask和Iter-RetGen，但显著优于SearchAin等方法。由于适配器模型较小且显著减少了输入LLM的文本长度，其资源需求相对较轻。
案例分析揭示工作机制：通过具体案例深入分析，研究发现AIR-RAG的改进源于适配器模型多种精妙的操作，例如：间接提示（提供背景但不直接给答案）、部分背景隐藏、通过迭代检索发现新证据、对相似内容的重排序以改变LLM关注点、检索消融（在特定情况下隐藏所有检索内容）以及噪声操纵等。这些操作表明适配器模型并非简单地执行人类理解的“相关度排序”，而是学习了一种复杂的、基于LLM和检索器行为特性的协同策略。
结论本研究成功提出了AIR-RAG，一个自适应迭代检索框架，用于增强检索增强生成系统。其核心贡献在于通过一个轻量级、可训练的适配器模型，在无需重训练基础检索器或LLM的前提下，实现了检索过程与LLM生成需求的动态、迭代对齐。该方法联合优化了检索相关性（通过迭代增强查询）和LLM对齐性（通过精炼过滤上下文），从而显著提升了多种问答和推理任务上的答案准确性与可靠性。
研究意义与价值科学价值：
提出新的对齐视角：将RAG优化问题形式化为同时对齐检索器和LLM两种“智能体”偏好的问题，为理解和完善多组件AI系统协作提供了新思路。
创新方法框架：提出的AIR-RAG框架将迭代检索、查询增强、文档精炼和偏好学习有机结合，为RAG研究提供了一个高效且可扩展的新范式。
推进高效对齐技术应用：成功将加权KTO算法应用于复杂的管道对齐任务，展示了此类数据高效对齐方法在更广泛系统优化中的潜力。
应用价值：
即插即用：AIR-RAG可以与任何现成的检索器和LLM无缝集成，大大降低了在实际系统中部署先进RAG技术的门槛和计算成本。
提升可靠性：通过减少不相关上下文对LLM的干扰，提高了生成答案的准确性和事实性，这对于搜索引擎、智能客服、教育辅助、事实核查等关键应用场景至关重要。
领域泛化潜力：虽然主要验证在通用领域，但其框架对于医学、法律等专业领域同样具有应用前景，只需使用相应的领域数据进行偏好训练。
研究亮点核心创新点：首次明确提出并实现了在RAG管道中同时对齐检索器和LLM的偏好，而非单独优化某一方。
方法新颖性：设计了间接的、基于结果的检索器偏好收集方法，避免了昂贵的人工相关性标注；并创新性地将加权KTO用于训练中间适配器模型。
卓越的性能：在多个具有挑战性的基准测试中取得领先性能，特别是在处理需要多跳推理和应对参数知识抑制的场景下优势明显。
实用性与效率：框架无需重训练大型模型，计算开销相对较小，具有良好的泛化能力和实用性。
其他有价值内容研究还讨论了AIR-RAG的局限性，例如当前方法主要基于句子级选择，未来可探索词元级或多粒度选择；以及虽然在PubHealth上进行了初步测试，但在医学、法律等高度专业化领域的全面评估仍有待进行。这些为后续研究指明了方向。此外，附录提供了详细的算法伪代码、更多的案例分析以及训练与测试集领域分布的可视化，确保了研究的可复现性和深度。作者已公开匿名代码与数据，进一步促进了学术共享与验证。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问