分享自:

基于证据树搜索增强检索增强生成

期刊:proceedings of the 63rd annual meeting of the association for computational linguistics (volume 1: long papers)

本文介绍了一项题为《Enhancing Retrieval-Augmented Generation via Evidence Tree Search》(通过证据树搜索增强检索增强生成)的原创性研究工作。该研究由来自北京大学通用人工智能国家重点实验室、北京大学智能科学与技术学院的孙浩(通讯作者为张燕)以及百度公司的蔡恒一、李雨辰、范宣博、魏晓驰、王帅强、尹大伟共同完成。该论文发表于2025年7月27日至8月1日举行的第63届国际计算语言学协会年会(ACL 2025)的长文论文集。

该研究属于自然语言处理(NLP)领域,具体聚焦于检索增强生成(Retrieval-Augmented Generation, RAG)技术。RAG旨在通过将大型语言模型(LLMs)的生成过程与外部知识库的检索相结合,以提升模型回答的准确性和事实性,减少“幻觉”现象。然而,在实际应用中,检索器(如搜索引擎)常常返回冗长且包含冗余或无关信息的文档,这些内容会干扰下游的“阅读器”模型,导致其难以定位关键证据,从而影响最终答案的质量。传统的证据检索方法面临三个核心挑战:1)难以建模证据句子之间复杂的协同依赖关系;2)缺乏用于评估多句子证据集合质量的直接监督信号;3)在候选证据集合数量呈指数级增长的搜索空间中,计算效率低下。针对这些问题,本研究旨在开发一种能够有效建模句子间依赖关系、高效评估证据质量并快速搜索最优证据集合的新框架。

本研究提出了一个名为ETS(Evidence Tree Search, 证据树搜索)的创新性框架。该框架将证据检索任务重新构建为一个动态的树状扩展过程,并利用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和一种早期终止的束搜索策略来解决上述挑战。整个研究流程主要包括三个核心阶段:MCTS标注、模型训练和模型推理。

首先,在MCTS标注阶段,研究团队旨在为训练数据生成高质量的监督信号。该阶段的核心研究对象是来自三个多跳问答数据集(2WikiMultiHopQA、HotpotQA、Musique)的共计5000个查询及其对应的长文档。对于每个查询-文档对,流程如下:1)将长文档分割成句子,并使用BGE嵌入模型计算每个句子与查询的语义相似度,过滤后保留最相关的句子作为候选集,以降低搜索复杂度。2)以查询为根节点,构建一棵证据树。树的每个节点代表一个句子,从根节点到任意叶节点的路径构成一个候选的证据集合。3)采用蒙特卡洛树搜索来探索这棵树。MCTS的每次迭代包含四个步骤:选择:从根节点开始,根据上置信区间树(UCT)准则,选择最有潜力(兼顾探索与利用)的节点进行扩展。扩展:对于选中的节点,并行地将候选集中的每个句子作为其子节点进行“模拟”,即评估将当前路径加上该新句子后,阅读器模型生成正确答案的概率。选择概率最高的前M个句子作为实际扩展的子节点。模拟:对于新扩展的节点(路径),使用阅读器模型(本研究中为Qwen2.5-7B-Instruct-1M)基于该路径对应的完整证据集合生成答案。若答案正确,则奖励为1;否则,奖励为阅读器基于该证据生成正确答案的概率。反向传播:将模拟得到的奖励值沿着从叶节点到根节点的路径反向传播,更新路径上所有节点的访问次数和价值估计。通过大量迭代,MCTS能够高效地评估不同证据组合的质量,并为树中的路径(即证据集合)标注出价值分数。最终,从构建好的树中采样出6000条高价值(正确)路径和6000条低价值(错误)路径,用于后续模型训练。

其次,在模型训练阶段,研究团队利用MCTS标注阶段产生的路径数据,训练两个模型:策略模型(Policy Model)和价值模型(Value Model)。策略模型基于预训练的Qwen2.5-7B-Instruct-1M初始化,其任务是学习如何根据当前查询和已选择的证据,生成下一个最有可能构成优质证据集合的句子。价值模型则在策略模型的基础上,增加了一个辅助的线性层和Sigmoid激活函数,用于预测当前证据路径的最终价值(即能引导阅读器给出正确答案的可能性)。两个模型共享大部分参数,通过一个多任务损失函数进行联合训练。损失函数的第一项是正确路径的负对数似然损失,用于优化策略模型的生成能力;第二项是价值预测的均方误差损失(基于所有路径上节点的MCTS价值估计),用于训练价值模型的评估能力。

最后,在模型推理阶段,训练好的策略模型被用于为新的查询和文档生成证据。为了平衡搜索的全面性和计算效率,研究团队提出了一种早期终止的束搜索(Early Terminating Beam Search) 机制。其流程如下:1)给定查询和文档,策略模型以束搜索的方式生成候选句子的前缀(如前几个词)。2)由于生成的目标句子直接来源于原文,一旦生成的前缀足以在原文中唯一确定一个句子,搜索过程便“早期终止”,直接使用该完整句子,而无需解码剩余的所有词元。这大大加速了生成过程。3)价值模型对束搜索中保留的每个候选句子(路径)进行评估打分。4)保留价值最高的若干路径,并继续扩展下一层句子,直到达到最大深度或无法再扩展。最终,选择价值最高的完整路径作为输出的证据集合,传递给下游的阅读器模型生成最终答案。

本研究在五个长文本问答基准数据集(2WikiMultiHopQA、HotpotQA、Musique、MultiFieldQA、Qasper)上进行了广泛的实验,使用了两种不同规模的阅读器模型(Qwen2.5-14B-Instruct-1M和Qwen2.5-72B-Instruct)来评估ETS框架的通用性。主要实验结果如下:1)性能领先:ETS在全部五个数据集和两种阅读器上,在精确匹配(EM)和F1分数上均显著超越了所有基线方法。例如,在使用Qwen2.5-14B阅读器时,ETS相比当时最优的基线方法(CIFC-7B)在平均EM分数上取得了约22%的相对提升。这证明了ETS框架在精准定位关键证据方面的强大能力。2)减轻阅读器负担:实验发现,当使用ETS提供精确证据后,较小规模的阅读器(14B参数)与超大规模阅读器(72B参数)的性能差距显著缩小。这说明ETS通过提供高质量、精炼的证据,有效降低了对阅读器模型自身长文本理解和信息筛选能力的要求,使得用户可以在不牺牲性能的前提下选择更小、成本更低的模型,具有重要的应用价值。3)消融实验:通过移除束搜索或早期终止机制进行消融研究,结果证实两者缺一不可。移除束搜索会导致性能大幅下降,因为模型无法充分探索句子空间;移除早期终止则会使推理延迟急剧增加,尤其是在处理长文档时。这验证了所提推理策略设计的有效性。4)超参数研究:对束搜索的扩展大小和束宽进行了调优,发现当这两个参数设置为4左右时,模型在性能和计算开销之间达到最佳平衡。5)输入长度影响分析:随着输入文档长度的增加,直接将全文输入给阅读器模型的方法性能下降明显,而ETS的性能下降幅度很小,显示了其处理长文档的鲁棒性。6)案例分析:通过具体案例对比显示,ETS能够比基线方法(如BGE检索模型、Qwen2.5-72B直接提取、CIFC-7B等)更精准、更全面地定位到与问题相关的多个关键实体及其关系,为阅读器生成正确答案提供了更充分、连贯的证据支持。

本研究的结论是,ETS框架通过将证据检索建模为树状扩展过程,并创新性地结合MCTS进行质量评估与训练信号生成,以及采用早期终止束搜索进行高效推理,成功地解决了RAG中证据检索面临的句子间依赖建模、监督信号缺乏和搜索空间巨大三大挑战。实验证明,该框架能够显著提升多种下游阅读器模型在复杂问答任务上的性能。

本研究的价值和亮点体现在多个方面:在科学价值上,它提出了一种新颖的、受树搜索启发的证据检索形式化方法,为理解和管理文本中信息片段的复杂组合关系提供了新视角。所提出的MCTS标注方法为缺乏直接监督的证据检索任务提供了一种有效的自监督训练信号生成机制。在应用价值上,ETS能够从冗长文档中精准抽取出紧凑、相关的证据链,极大提升了RAG系统的答案准确性和可靠性。其“小模型(证据查找器)+小模型(阅读器)”可达到近似“小模型+超大模型”效果的发现,为降低大模型应用成本提供了切实可行的路径。本研究的重要创新点包括:1)方法新颖性:首次将证据检索形式化为动态树搜索问题,并引入MCTS这一经典强化学习算法进行优化和训练,构思巧妙。2)技术贡献:提出的早期终止束搜索策略,巧妙利用了生成目标源于原文这一特性,在保证搜索质量的同时大幅提升了推理效率,是一项实用的工程创新。3)实证效果显著:在多个权威数据集上取得了显著的性能提升,并通过详实的实验(消融、超参、鲁棒性分析等)全面验证了框架各个组成部分的有效性和必要性。4)资源开放:作者承诺将公开代码和数据集,有助于推动该领域的后续研究。

此外,论文也坦诚地指出了本工作的两点局限性:一是MCTS标注过程需要多次模拟,会产生额外的标注成本;二是受资源所限,仅使用了Qwen2.5-7B作为骨干模型进行实验,未来将在更大规模的模型上进行验证。这些为后续研究指明了可能的改进方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com