分享自:

基于检索链增强生成的训练方法

期刊:39th conference on neural information processing systems (NeurIPS 2025)

关于CoRAG研究的学术报告

一、 作者、机构及发表情况

本研究由微软研究院的王梁*†、黄晓龙†、杨楠†、韦福如†和中国人民大学的陈浩楠‡、窦志成‡共同完成。通讯作者为王梁。该研究论文已被第39届神经信息处理系统大会(NeurIPS 2025)接收。源代码、数据和训练模型已在GitHub(https://github.com/microsoft/lmops/tree/main/corag)上公开。

二、 学术背景与研究目的

本研究隶属于人工智能领域,具体聚焦于检索增强生成(Retrieval-Augmented Generation, RAG)技术。RAG通过将大型语言模型(LLMs)与外部知识源(如数据库、知识库)相结合,在生成答案前检索相关信息,旨在提升模型回答的事实准确性和可追溯性,并减轻幻觉问题。然而,传统的RAG范式通常采用“单次检索,一次生成”的流程。当面对复杂查询(例如需要进行多步推理的“多跳问答”)时,这种一次性检索的质量瓶颈会严重制约最终答案的准确性。这是因为:(1)复杂的查询往往需要按顺序检索多个信息片段;(2)若初始检索结果不理想,模型缺乏动态调整检索策略的能力。

为解决上述挑战,本研究提出了一种名为CoRAG的新框架。其核心思想是模仿人类解决复杂问题的过程:让模型学会分步骤(链式)地进行检索与推理,即在生成最终答案前,能够动态地规划、执行多次检索,并根据中间状态重新制定查询。该研究的目标是训练出能够自主执行这种“检索链”的模型,并通过在测试时灵活调整计算量(如检索步数、探索路径数量),实现性能与计算成本的帕累托最优。

三、 详细研究流程

本研究包含三个核心流程:通过拒绝采样自动生成检索链、利用增强数据集训练模型,以及测试时的多种解码策略。

流程一:检索链的自动生成(基于拒绝采样) 由于现有的RAG数据集通常只包含查询(Q)和最终答案(A),缺乏中间的检索步骤标注,因此本研究设计了一种自动化的“拒绝采样”方法来构建训练数据。 1. 研究对象与样本:以现有RAG数据集的每一个QA对为基础,目标是为其生成一条最优的“检索链”。 2. 处理与实验方法: * 链结构:一条检索链由一系列子查询(q1, q2, …, ql)及其对应的子答案(a1, a2, …, al)组成,l为预设的最大链长度。 * 生成过程:对于每个训练样本,研究使用一个LLM(如Llama-3.1-8B-Instruct)进行多次采样(例如16次),每次采样生成一条候选链。生成过程是迭代的: a. 生成子查询:给定原始查询Q和已生成的子查询与子答案历史,LLM被提示生成下一个简单的跟进问题(子查询qi)。当之前的答案无效时,模型会被鼓励重新表述或分解问题。 b. 检索与生成子答案:使用一个文本检索器(如E5-large)以子查询qi为输入,从维基百科语料库中检索Top-K相关文档。随后,另一个LLM根据这些文档生成子答案ai。若文档不相关,则生成“未找到相关信息”。 c. 迭代与终止:重复a和b,直到链长达到l,或者某个子答案ai与最终正确答案A匹配。 * 质量评估与选择:对于所有采样生成的候选链,计算最终正确答案A在该链信息条件下的对数似然值log p(A|…)。选择似然值最高的那条候选链作为该QA对的增强数据。这个过程的核心是利用模型自身的推理能力来评判和筛选出最有效的推理路径

流程二:模型训练 1. 研究对象:使用上述方法在多个数据集(多跳QA数据集和KILT基准)上分别构建增强数据集。例如,多跳QA合并数据集包含约12.5万条训练实例,KILT数据集包含约66万条实例(经子采样后)。 2. 处理与实验方法: * 模型架构:研究基于开源模型Llama-3.1-8B-Instruct进行全参数微调。 * 训练目标:采用统一的多任务学习框架,同时训练三个目标: (1) 下一个子查询预测:基于历史信息预测下一个子查询。 (2) 子答案预测:基于子查询和检索到的文档生成子答案。 (3) 最终答案预测:基于整个检索链信息及原始查询的检索文档生成最终答案。 * 损失函数:使用标准的下一词预测交叉熵损失,分别计算上述三个任务的损失,并通过采样比例进行平衡。 * 关键设计:训练时使用的提示模板与数据生成时保持一致,这使得训练好的模型可以用于新一轮的拒绝采样,实现迭代自我改进。

流程三:测试时计算量扩展 这是CoRAG框架的一大特色,旨在不改变模型权重的情况下,通过调整解码策略来权衡性能与计算成本(以消耗的总令牌数为度量)。 1. 研究对象:训练好的CoRAG模型。 2. 处理与实验方法:提出了三种解码策略: * 贪婪解码:顺序生成固定长度l的检索链,然后生成最终答案。这是计算成本最低的策略。 * 最佳N采样:以一定温度(如0.7)采样生成N条不同的检索链。由于测试时没有真实答案,模型计算每条链生成“未找到相关信息”的条件概率作为惩罚分数,选择惩罚分数最低(即最自信)的链来生成最终答案。增加N可以探索更多可能性,提升性能,但成本也更高。 * 树搜索:实现了一种带展开的广度优先搜索。在每一步,对当前状态采样多个子查询进行扩展;对每个扩展状态,进行多次“ rollout ”(快速模拟生成后续链),计算这些rollout的平均惩罚分数;保留分数最优的状态继续扩展。这是最精细但计算成本最高的策略。 * 控制参数:检索链的最大长度l、采样链的数量N、树搜索的展开大小和rollout次数等,均为控制测试时计算量的超参数。

四、 主要结果

结果一:在多跳问答基准上的卓越性能 在2WikiMultihopQA、HotpotQA、Bamboogle和Musique四个多跳问答数据集上,CoRAG-8B模型显著超越了所有基线模型。 * 支持数据:如表1所示,在最佳配置下(如l=10, best-of-8),CoRAG在2WikiMultihopQA上的精确匹配(EM)分数达到72.5,在Musique上达到30.9。与仅使用单次检索的微调基线相比,提升超过10个EM点。即使是与使用更大模型(如基于QWQ-32B的Search-O1)或更多计算量(如IterRAG使用32k令牌上下文)的先进方法相比,CoRAG-8B也表现出竞争优势,证明了其方法的有效性。 * 结果逻辑:这一结果直接验证了CoRAG的核心假设——对于需要多步推理的复杂查询,链式的、动态的检索策略比单次检索更有效。模型学会了将复杂问题分解为子问题(如图1b示例),并在遇到检索失败时进行查询重写。

结果二:在KILT基准上达到新的最先进水平 KILT基准涵盖实体链接、槽填充、开放问答、事实核查等多种知识密集型任务。CoRAG-8B在该基准的隐藏测试集上几乎在所有任务上都取得了新的最先进性能。 * 支持数据:如表2所示,在实体链接(AIDA: 93.9)、开放问答(NQ: 63.1)、事实验证(FEVER: 93.1)等任务上,CoRAG均超越了之前的最佳记录(包括更大的11B参数模型Atlas-11B)。 * 结果逻辑:这表明CoRAG框架具有良好的泛化能力,其学习到的“链式检索与推理”能力不仅适用于多跳问答,也能提升其他类型知识任务的性能,体现了其作为通用RAG训练范式的潜力。

结果三:测试时计算量的明确扩展规律 实验系统地探究了增加检索链长度l和采样链数量n对性能的影响。 * 支持数据:如图3所示,性能(EM分数)与平均消耗令牌数之间近似存在对数线性关系,即初期增加计算量带来显著收益,后期收益递减。这形成了一条清晰的帕累托前沿,为实践者在性能与成本间做决策提供了依据。 * 结果分析:这一发现与OpenAI o1等模型报告的“测试时扩展”行为一致。但CoRAG在开源框架内实现了这一特性,并提供了多种可控的解码策略。研究还发现,扩展收益因数据集而异:对于单跳问题为主的数据集(如NQ),扩展收益有限;对于复杂的多跳数据集(如Musique),扩展收益非常显著。这提示未来系统可以根据查询复杂度自适应分配计算资源。

结果四:深入分析揭示了框架的稳健性与特性 一系列消融与分析实验提供了更深入的见解: * 检索质量提升:如表4所示,CoRAG不仅提高了答案准确率,还显著提升了检索召回率。通过融合检索链中多步检索的结果,其检索到的相关文档远超单步检索基线。这证明模型确实学会了“检索得更好”。 * 对弱检索器的鲁棒性:即使测试时换用更弱的检索器(如BM25),CoRAG通过增加检索步数(测试时计算量)仍然能获得显著性能提升,显示出对检索器质量的鲁棒性。 * 弱到强泛化:使用更小的模型(如Llama-3B)生成检索链,然后训练更大的模型(Llama-8B),可以获得接近直接用大模型生成链的性能,这降低了高质量训练数据生成的成本门槛。 * 学习提前停止:研究还探索了让模型学习在信息充足时提前停止生成检索链的变体。虽然提前停止能节省计算量,但会带来性能损失,需要在具体应用中权衡。

五、 结论与价值

本研究提出的CoRAG框架,成功训练了大语言模型进行迭代式、链式的检索与推理。其主要贡献和价值在于: 1. 科学价值:提出了一种新颖的、可训练的RAG范式,将静态的单次检索发展为动态的多步规划与执行过程。它弥合了传统RAG在应对复杂查询时的能力鸿沟,为构建更具推理能力的事实性语言模型提供了新路径。 2. 方法论价值:创新地利用“拒绝采样”自动生成高质量的中间监督信号(检索链),解决了此类数据标注稀缺的难题。同时,明确了测试时计算量扩展在RAG领域的可行性与规律。 3. 应用价值:CoRAG-8B模型在多个权威基准上达到最先进水平,证明了该框架的有效性和高效性。其代码和模型已开源,可直接应用于需要高事实准确性的复杂问答、知识库查询等场景,有助于开发更可靠的企业级AI应用。 4. 未来方向:研究为未来工作奠定了基础,例如将CoRAG扩展到需要生成长文本输出的更复杂任务,以及开发根据查询难度自适应调整计算资源的智能系统。

六、 研究亮点

  1. 核心创新:首次系统性地提出了可训练的链式检索增强生成框架,并实现了测试时计算量的可控扩展
  2. 方法新颖性:采用拒绝采样自动构建训练数据,巧妙地解决了中间步骤标注缺失的问题,且流程支持迭代自改进。
  3. 性能突破:仅用8B参数的开源模型,在多个具有挑战性的多跳问答和知识密集型任务基准上取得了最先进或极具竞争力的性能,部分任务提升显著(超过10个EM点)。
  4. 分析全面性:不仅报告了SOTA结果,还进行了深入的扩展性分析、鲁棒性测试、泛化性探究和检索质量评估,全面揭示了CoRAG框架的特性和行为,为后续研究提供了丰富的洞见。

七、 其他有价值的内容

本研究还探讨了将框架扩展到其他模型系列(如Qwen3)的可行性,并取得了同样显著的提升,证明了CoRAG的通用性。论文附录提供了详细的实现细节、超参数、提示词模板以及更多的案例分析,确保了研究的可复现性。此外,论文明确讨论了当前工作的局限性(主要集中于答案简短易验证的任务,对长文本生成和评估的挑战尚未解决)和更广泛的影响(提升事实性、但幻觉风险仍需监控),体现了严谨的学术态度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com