分享自:

使用可微分数据奖励优化检索增强生成

期刊:ICLR

基于可微分数据奖励优化检索增强生成:RAG-DDR方法研究

本文介绍一篇发表于ICLR 2025的学术论文,题为“RAG-DDR: Optimizing Retrieval-Augmented Generation using Differentiable Data Rewards”。该研究由来自东北大学、清华大学和卡内基梅隆大学的研究团队完成,主要作者包括Xinze Li, Sen Mei, Zhenghao Liu, Yukun Yan, Shuo Wang, Shi Yu, Zheni Zeng, Hao Chen, Ge Yu, Zhiyuan Liu, Maosong Sun, Chenyan Xiong。这项研究旨在解决当前检索增强生成(Retrieval-Augmented Generation, RAG)系统优化中存在的一个核心问题:如何端到端地训练RAG系统中的不同模块(如检索器、生成器),使它们的数据偏好(data preference)对齐,从而提升整体系统的性能,特别是在缓解幻觉(hallucination)和知识冲突(knowledge conflict)方面。

一、 研究背景与目标

大型语言模型(Large Language Models, LLMs)在多种自然语言处理任务中展现出强大能力,但也因其参数化记忆(parametric memory)的局限性,容易产生事实性错误,即“幻觉”。为了缓解这一问题,检索增强生成(RAG)技术被广泛采用,它通过从外部知识源检索相关信息来辅助LLMs生成更准确、可靠的回答。然而,现有的RAG系统优化方法,尤其是基于指令微调(Instruction Tuning)的监督微调(Supervised Fine-Tuning, SFT)方法,存在两个主要缺陷:1) 容易使模型过拟合训练信号,导致泛化能力下降;2) 忽略了RAG系统内部不同“智能体”(Agent,如检索模块、知识精炼模块、生成模块)之间可能存在的数据偏好差异。例如,生成模块可能偏好简洁、直接的证据,而检索模块可能返回冗长、包含冗余信息的文档,这种不匹配会降低系统效率。

因此,本研究的目标是提出一种新的优化框架,能够端到端地训练RAG系统,并对齐系统内不同模块的数据偏好。具体而言,研究者希望生成模块能够更有效地从检索到的文档中提取关键信息,同时更好地平衡外部知识与模型内部记忆,从而减少知识冲突,提升在知识密集型任务上的性能。

二、 研究方法与流程

本研究提出了一种名为“可微分数据奖励”(Differentiable Data Rewards, DDR)的优化方法。其核心思想是将RAG系统视为由多个相互通信的智能体组成的整体,通过一种类似“推演”(Rollout)的方式收集整个系统的反馈(奖励),并利用直接偏好优化(Direct Preference Optimization, DPO)算法来优化每个智能体,使其输出更有利于提升整个系统最终性能。

1. 系统构建:两智能体RAG系统 为了验证DDR方法的有效性,研究构建了一个典型的两智能体RAG系统,包含: * 知识精炼模块(Knowledge Refinement Module, v_kr):负责对检索到的文档集进行过滤,选择与查询最相关的子集,去除噪声文档。该模块接收查询(q)和检索到的文档集(D={d1, …, dn}),为每个文档输出“保留”(yes)或“丢弃”(no)的决策。 * 生成模块(Generation Module, v_gen):基于查询(q)和经过精炼的文档集(D̃),生成最终的答案(y_gen)。

2. DDR优化流程 DDR方法迭代地优化上述两个模块,其工作流程可以概括为以下步骤,并如图1所示:

步骤一:数据传播与系统评估 给定一个查询q和检索到的文档集D,数据在系统中正向传播:v_kr处理(q, D)得到精炼文档集D̃,然后v_gen基于(q, D̃)生成最终答案y_gen。系统整体的性能通过一个评价函数S(y_gen)来评估(例如,在问答任务中使用准确率或ROUGE-L分数)。这个分数S(y)就是整个RAG系统的“奖励”。

步骤二:为单个智能体收集奖励(Rollout过程) 为了优化某个特定智能体(例如v_gen),DDR采用“推演”方法。具体操作如下: * 扰动采样:首先,让目标智能体(v_gen)基于输入(q, D̃)采样生成多个潜在的输出响应{ỹ_gen}(通过调整采样温度等方式引入扰动)。这些采样响应代表了v_gen可能的不同行为。 * 子系统评估:对于v_gen采样的每一个响应ỹ_gen,研究者将其“喂给”系统中该智能体之后的所有模块(对于v_gen来说,之后没有其他模块,所以就是评估最终输出),并计算整个系统基于该采样行为所产生的最终输出的质量分数S(y_gen)。这个过程模拟了如果v_gen做出不同选择,会对系统最终结果产生何种影响。 * 分配奖励:将计算得到的系统分数S(y_gen)作为该采样响应ỹ_gen的奖励r(x, ỹ_gen)。这样,就为v_gen的每个可能输出分配了一个来自整个系统的、可微分的奖励信号。

步骤三:基于奖励优化智能体(使用DPO) 在获得一组采样响应及其对应的奖励后,研究者从中选出奖励最高(表现最好)的响应作为正例(ỹ⁺),奖励最低的作为负例(ỹ⁻)。然后,利用直接偏好优化(DPO)算法来训练目标智能体。DPO的目标是最大化模型生成正例响应相对于负例响应的概率。其损失函数鼓励模型的输出偏好与系统奖励所指示的偏好保持一致。通过这种方式,v_gen被训练去生成那些能导致整个RAG系统获得更高评价的响应,而不是简单地模仿训练数据中的标准答案。

步骤四:迭代优化 研究者采用了两轮迭代优化策略: * 第一轮:首先固定知识精炼模块(v_kr),使用上述DDR方法优化生成模块(v_gen)。 * 第二轮:然后,固定已优化的v_gen,将其作为评估器,使用类似的DDR方法优化知识精炼模块(v_kr)。对于v_kr,其“动作”是为每个文档打“保留/丢弃”标签。通过Rollout过程(即用不同的文档选择策略输入给后续的v_gen,看最终答案质量),可以评估每个文档选择决策的好坏,从而用DPO训练v_kr做出更有利于最终生成质量的选择。

3. 实验设计与实施细节 * 数据集:研究使用了涵盖开放域问答(如Natural Questions, TriviaQA, MS MARCO)、多跳问答(HotpotQA)、槽填充(T-REx)和对话(Wizard of Wikipedia)等多种知识密集型任务的数据集进行训练和评估。训练集包含约32,805个样本。 * 基线模型:与多种基线方法进行比较,包括:1) 无RAG的纯LLM;2) 朴素RAG(Vanilla RAG);3) REPLUG(一种通过集成多个文档通道概率来增强生成的方法);4) Self-RAG(训练LLM自主决定检索和反思);5) RA-DIT(使用指令微调优化RAG系统)。 * 模型配置:主要使用MiniCPM-2.4B和LLaMA3-8B作为生成模块的骨干模型,使用LLaMA3-8B作为知识精炼模块的骨干模型。检索器使用预训练的BGE-Large模型,在训练过程中保持冻结。 * 评估指标:根据任务不同,采用准确率(Accuracy)、ROUGE-L或F1分数作为评估指标。

三、 主要研究结果

1. 整体性能优势 如表1所示,RAG-DDR模型在所有评估任务和不同规模的生成模型(MiniCPM-2.4B和LLaMA3-8B)上,均显著优于所有基线模型。特别是与当前先进的指令微调方法RA-DIT相比,RAG-DDR取得了明显的性能提升,在使用较小模型MiniCPM-2.4B时优势更为显著(例如在NQ任务上提升约5%)。这表明DDR方法能更有效地让小规模LLM学会利用外部知识。

2. 消融研究揭示关键因素 表2的消融实验结果表明: * 仅优化生成模块(RAG-DDR (only training v_gen))带来的性能提升,远大于仅优化知识精炼模块(RAG-DDR (only training v_kr))。 * 同时优化两个模块(RAG-DDR (all training))能获得最佳性能,但主要收益来源于对生成模块的优化。 * 这一发现说明,在现有RAG系统中,提升生成模块利用和协调知识的能力,比单纯优化文档过滤更为关键。DDR方法通过系统级奖励直接优化生成模块,正是抓住了这一关键。

3. 生成模块的特性分析 图2和表3的深入分析揭示了经DDR优化的生成模块(v_gen)的独特优势: * 缓解灾难性遗忘:在仅使用内部知识(不提供检索文档)的测试中,经SFT方法(RA-DIT)优化的模型在部分任务上性能甚至低于零射的朴素RAG,出现了灾难性遗忘。而DDR优化的模型在所有任务上都保持了稳定的性能提升,说明其强化学习式的优化方式能更好地保留模型原有知识。 * 生成响应长度更合理:RA-DIT优化的模型生成的答案长度显著缩短,显示出对训练数据的过拟合。而DDR优化的模型生成的答案长度分布与原始LLM更接近,表明其能更好地保持原始模型的输出特性。 * 更擅长利用外部知识:在“有答案”场景(检索文档包含正确答案)下,DDR模型准确率最高,表明其从文档中提取关键信息的能力最强。 * 更有效平衡内外知识:在“内部知识”场景(LLM本身知道答案,但检索文档可能包含冲突或无关信息)下,朴素RAG性能下降超过20%,显示出严重知识冲突。DDR模型将性能下降控制在10%以内,显著优于其他方法,证明其能更好地判断何时信赖内部记忆、何时采纳外部证据。 * 更强的抗噪声能力:如图3所示,当在检索结果中人为加入噪声文档时,DDR模型的性能下降最为平缓,始终优于朴素RAG和RA-DIT,显示出优秀的去噪和鲁棒性。

4. 案例研究 表4中的具体案例生动展示了RAG-DDR的优势: * 案例1(加拿大夏令时):检索文档列出了多个具体日期,DDR模型能概括出“三月的第二个星期日”这一规则性答案,而其他模型被具体日期噪声误导。 * 案例2(弗格森执教曼联时间):需要整合文档中多个信息片段(开始和结束时间)。DDR模型成功给出了完整时间段,而其他模型只给出了部分信息。 * 案例3(“这位女士不会转向”演讲):LLM本身知道答案是“玛格丽特·撒切尔”,但检索文档的干扰使朴素RAG和RA-DIT给出了错误答案。DDR模型则能抵抗干扰,给出正确答案。这直接证明了DDR在缓解知识冲突方面的有效性。

四、 结论与意义

本研究的核心结论是:提出的可微分数据奖励(DDR)方法,能够通过端到端的、基于系统级奖励的优化,有效对齐RAG系统内部不同模块的数据偏好,从而显著提升RAG系统在多种知识密集型任务上的性能。

其科学价值和应用价值在于: 1. 方法论创新:DDR提供了一种不同于传统监督微调(SFT)的RAG系统优化新范式。它利用强化学习思想(DPO)和推演机制,使优化目标直接指向最终的系统输出质量,避免了SFT的过拟合问题,并实现了模块间的协同优化。 2. 性能提升:实验证明,DDR能显著提升生成答案的准确性,特别是在使用较小参数规模的LLM时,使其对外部知识的依赖和利用能力大幅增强。 3. 解决关键问题:DDR有效缓解了RAG系统中的两大难题:a) 知识冲突:帮助生成模块更智能地在内部记忆和外部证据之间做出权衡;b) 噪声干扰:提升了模型在包含不相关或冲突信息的检索结果下的鲁棒性。 4. 模型行为改善:DDR优化的模型能生成长度更合理、更符合原始LLM风格的响应,减轻了优化过程对模型通用能力的损害。

五、 研究亮点

  1. 新颖的优化框架:首次提出使用可微分系统奖励和DPO算法来端到端对齐RAG多智能体数据偏好,构思巧妙。
  2. 聚焦关键瓶颈:明确指出并验证了在RAG系统中,优化生成模块的知识利用与协调能力比单纯优化检索/过滤模块更为关键和有效。
  3. 深入的机理分析:不仅展示了性能提升,还通过详实的实验(如内部知识测试、抗噪声测试、响应长度分析)深入剖析了DDR方法为何有效,揭示了其缓解灾难性遗忘和知识冲突的内在机制。
  4. 强大的泛化性与可扩展性:方法在多种任务、不同规模LLM上均表现优异。附加实验还表明,该方法可以扩展到包含更多智能体(如增加摘要模块)的复杂RAG系统中,展现了良好的可扩展性。

六、 其他有价值的内容

论文还提供了详细的附录,包括: * 训练数据构建过程:详细说明了如何为DDR训练生成正负样本对。 * 提示词模板:公开了用于知识精炼和生成的具体提示词设计,具有很高的参考价值。 * 与更多基线的比较:例如与FILCO和InstructRAG等方法的对比,进一步验证了DDR的优势。 * 大规模LLM实验:在Qwen2.5-14B上的实验表明DDR方法同样有效,证明了其在不同规模模型上的适用性。

总而言之,RAG-DDR研究为优化复杂的、模块化的RAG系统提供了一种行之有效且解释性强的端到端训练方案,对于推动构建更可靠、更高效的检索增强生成系统具有重要意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com