使用可微分数据奖励优化检索增强生成

分享自：
使用可微分数据奖励优化检索增强生成

期刊:ICLR
基于可微分数据奖励优化检索增强生成：RAG-DDR方法研究
本文介绍一篇发表于ICLR 2025的学术论文，题为“RAG-DDR: Optimizing Retrieval-Augmented Generation using Differentiable Data Rewards”。该研究由来自东北大学、清华大学和卡内基梅隆大学的研究团队完成，主要作者包括Xinze Li, Sen Mei, Zhenghao Liu, Yukun Yan, Shuo Wang, Shi Yu, Zheni Zeng, Hao Chen, Ge Yu, Zhiyuan Liu, Maosong Sun, Chenyan Xiong。这项研究旨在解决当前检索增强生成（Retrieval-Augmented Generation， RAG）系统优化中存在的一个核心问题：如何端到端地训练RAG系统中的不同模块（如检索器、生成器），使它们的数据偏好（data preference）对齐，从而提升整体系统的性能，特别是在缓解幻觉（hallucination）和知识冲突（knowledge conflict）方面。
一、 研究背景与目标
大型语言模型（Large Language Models, LLMs）在多种自然语言处理任务中展现出强大能力，但也因其参数化记忆（parametric memory）的局限性，容易产生事实性错误，即“幻觉”。为了缓解这一问题，检索增强生成（RAG）技术被广泛采用，它通过从外部知识源检索相关信息来辅助LLMs生成更准确、可靠的回答。然而，现有的RAG系统优化方法，尤其是基于指令微调（Instruction Tuning）的监督微调（Supervised Fine-Tuning, SFT）方法，存在两个主要缺陷：1) 容易使模型过拟合训练信号，导致泛化能力下降；2) 忽略了RAG系统内部不同“智能体”（Agent，如检索模块、知识精炼模块、生成模块）之间可能存在的数据偏好差异。例如，生成模块可能偏好简洁、直接的证据，而检索模块可能返回冗长、包含冗余信息的文档，这种不匹配会降低系统效率。
因此，本研究的目标是提出一种新的优化框架，能够端到端地训练RAG系统，并对齐系统内不同模块的数据偏好。具体而言，研究者希望生成模块能够更有效地从检索到的文档中提取关键信息，同时更好地平衡外部知识与模型内部记忆，从而减少知识冲突，提升在知识密集型任务上的性能。
二、 研究方法与流程
本研究提出了一种名为“可微分数据奖励”（Differentiable Data Rewards， DDR）的优化方法。其核心思想是将RAG系统视为由多个相互通信的智能体组成的整体，通过一种类似“推演”（Rollout）的方式收集整个系统的反馈（奖励），并利用直接偏好优化（Direct Preference Optimization， DPO）算法来优化每个智能体，使其输出更有利于提升整个系统最终性能。
1. 系统构建：两智能体RAG系统 为了验证DDR方法的有效性，研究构建了一个典型的两智能体RAG系统，包含： * 知识精炼模块（Knowledge Refinement Module, v_kr）：负责对检索到的文档集进行过滤，选择与查询最相关的子集，去除噪声文档。该模块接收查询（q）和检索到的文档集（D={d1, …, dn}），为每个文档输出“保留”（yes）或“丢弃”（no）的决策。 * 生成模块（Generation Module, v_gen）：基于查询（q）和经过精炼的文档集（D̃），生成最终的答案（y_gen）。
2. DDR优化流程 DDR方法迭代地优化上述两个模块，其工作流程可以概括为以下步骤，并如图1所示：
步骤一：数据传播与系统评估 给定一个查询q和检索到的文档集D，数据在系统中正向传播：v_kr处理(q, D)得到精炼文档集D̃，然后v_gen基于(q, D̃)生成最终答案y_gen。系统整体的性能通过一个评价函数S(y_gen)来评估（例如，在问答任务中使用准确率或ROUGE-L分数）。这个分数S(y)就是整个RAG系统的“奖励”。
步骤二：为单个智能体收集奖励（Rollout过程） 为了优化某个特定智能体（例如v_gen），DDR采用“推演”方法。具体操作如下： * 扰动采样：首先，让目标智能体（v_gen）基于输入（q, D̃）采样生成多个潜在的输出响应{ỹ_gen}（通过调整采样温度等方式引入扰动）。这些采样响应代表了v_gen可能的不同行为。 * 子系统评估：对于v_gen采样的每一个响应ỹ_gen，研究者将其“喂给”系统中该智能体之后的所有模块（对于v_gen来说，之后没有其他模块，所以就是评估最终输出），并计算整个系统基于该采样行为所产生的最终输出的质量分数S(y_gen)。这个过程模拟了如果v_gen做出不同选择，会对系统最终结果产生何种影响。 * 分配奖励：将计算得到的系统分数S(y_gen)作为该采样响应ỹ_gen的奖励r(x, ỹ_gen)。这样，就为v_gen的每个可能输出分配了一个来自整个系统的、可微分的奖励信号。
步骤三：基于奖励优化智能体（使用DPO） 在获得一组采样响应及其对应的奖励后，研究者从中选出奖励最高（表现最好）的响应作为正例（ỹ⁺），奖励最低的作为负例（ỹ⁻）。然后，利用直接偏好优化（DPO）算法来训练目标智能体。DPO的目标是最大化模型生成正例响应相对于负例响应的概率。其损失函数鼓励模型的输出偏好与系统奖励所指示的偏好保持一致。通过这种方式，v_gen被训练去生成那些能导致整个RAG系统获得更高评价的响应，而不是简单地模仿训练数据中的标准答案。
步骤四：迭代优化 研究者采用了两轮迭代优化策略： * 第一轮：首先固定知识精炼模块（v_kr），使用上述DDR方法优化生成模块（v_gen）。 * 第二轮：然后，固定已优化的v_gen，将其作为评估器，使用类似的DDR方法优化知识精炼模块（v_kr）。对于v_kr，其“动作”是为每个文档打“保留/丢弃”标签。通过Rollout过程（即用不同的文档选择策略输入给后续的v_gen，看最终答案质量），可以评估每个文档选择决策的好坏，从而用DPO训练v_kr做出更有利于最终生成质量的选择。
3. 实验设计与实施细节 * 数据集：研究使用了涵盖开放域问答（如Natural Questions, TriviaQA, MS MARCO）、多跳问答（HotpotQA）、槽填充（T-REx）和对话（Wizard of Wikipedia）等多种知识密集型任务的数据集进行训练和评估。训练集包含约32，805个样本。 * 基线模型：与多种基线方法进行比较，包括：1) 无RAG的纯LLM；2) 朴素RAG（Vanilla RAG）；3) REPLUG（一种通过集成多个文档通道概率来增强生成的方法）；4) Self-RAG（训练LLM自主决定检索和反思）；5) RA-DIT（使用指令微调优化RAG系统）。 * 模型配置：主要使用MiniCPM-2.4B和LLaMA3-8B作为生成模块的骨干模型，使用LLaMA3-8B作为知识精炼模块的骨干模型。检索器使用预训练的BGE-Large模型，在训练过程中保持冻结。 * 评估指标：根据任务不同，采用准确率（Accuracy）、ROUGE-L或F1分数作为评估指标。
三、 主要研究结果
1. 整体性能优势 如表1所示，RAG-DDR模型在所有评估任务和不同规模的生成模型（MiniCPM-2.4B和LLaMA3-8B）上，均显著优于所有基线模型。特别是与当前先进的指令微调方法RA-DIT相比，RAG-DDR取得了明显的性能提升，在使用较小模型MiniCPM-2.4B时优势更为显著（例如在NQ任务上提升约5%）。这表明DDR方法能更有效地让小规模LLM学会利用外部知识。
2. 消融研究揭示关键因素 表2的消融实验结果表明： * 仅优化生成模块（RAG-DDR (only training v_gen)）带来的性能提升，远大于仅优化知识精炼模块（RAG-DDR (only training v_kr)）。 * 同时优化两个模块（RAG-DDR (all training)）能获得最佳性能，但主要收益来源于对生成模块的优化。 * 这一发现说明，在现有RAG系统中，提升生成模块利用和协调知识的能力，比单纯优化文档过滤更为关键。DDR方法通过系统级奖励直接优化生成模块，正是抓住了这一关键。
3. 生成模块的特性分析 图2和表3的深入分析揭示了经DDR优化的生成模块（v_gen）的独特优势： * 缓解灾难性遗忘：在仅使用内部知识（不提供检索文档）的测试中，经SFT方法（RA-DIT）优化的模型在部分任务上性能甚至低于零射的朴素RAG，出现了灾难性遗忘。而DDR优化的模型在所有任务上都保持了稳定的性能提升，说明其强化学习式的优化方式能更好地保留模型原有知识。 * 生成响应长度更合理：RA-DIT优化的模型生成的答案长度显著缩短，显示出对训练数据的过拟合。而DDR优化的模型生成的答案长度分布与原始LLM更接近，表明其能更好地保持原始模型的输出特性。 * 更擅长利用外部知识：在“有答案”场景（检索文档包含正确答案）下，DDR模型准确率最高，表明其从文档中提取关键信息的能力最强。 * 更有效平衡内外知识：在“内部知识”场景（LLM本身知道答案，但检索文档可能包含冲突或无关信息）下，朴素RAG性能下降超过20%，显示出严重知识冲突。DDR模型将性能下降控制在10%以内，显著优于其他方法，证明其能更好地判断何时信赖内部记忆、何时采纳外部证据。 * 更强的抗噪声能力：如图3所示，当在检索结果中人为加入噪声文档时，DDR模型的性能下降最为平缓，始终优于朴素RAG和RA-DIT，显示出优秀的去噪和鲁棒性。
4. 案例研究 表4中的具体案例生动展示了RAG-DDR的优势： * 案例1（加拿大夏令时）：检索文档列出了多个具体日期，DDR模型能概括出“三月的第二个星期日”这一规则性答案，而其他模型被具体日期噪声误导。 * 案例2（弗格森执教曼联时间）：需要整合文档中多个信息片段（开始和结束时间）。DDR模型成功给出了完整时间段，而其他模型只给出了部分信息。 * 案例3（“这位女士不会转向”演讲）：LLM本身知道答案是“玛格丽特·撒切尔”，但检索文档的干扰使朴素RAG和RA-DIT给出了错误答案。DDR模型则能抵抗干扰，给出正确答案。这直接证明了DDR在缓解知识冲突方面的有效性。
四、 结论与意义
本研究的核心结论是：提出的可微分数据奖励（DDR）方法，能够通过端到端的、基于系统级奖励的优化，有效对齐RAG系统内部不同模块的数据偏好，从而显著提升RAG系统在多种知识密集型任务上的性能。
其科学价值和应用价值在于： 1. 方法论创新：DDR提供了一种不同于传统监督微调（SFT）的RAG系统优化新范式。它利用强化学习思想（DPO）和推演机制，使优化目标直接指向最终的系统输出质量，避免了SFT的过拟合问题，并实现了模块间的协同优化。 2. 性能提升：实验证明，DDR能显著提升生成答案的准确性，特别是在使用较小参数规模的LLM时，使其对外部知识的依赖和利用能力大幅增强。 3. 解决关键问题：DDR有效缓解了RAG系统中的两大难题：a) 知识冲突：帮助生成模块更智能地在内部记忆和外部证据之间做出权衡；b) 噪声干扰：提升了模型在包含不相关或冲突信息的检索结果下的鲁棒性。 4. 模型行为改善：DDR优化的模型能生成长度更合理、更符合原始LLM风格的响应，减轻了优化过程对模型通用能力的损害。
五、 研究亮点
新颖的优化框架：首次提出使用可微分系统奖励和DPO算法来端到端对齐RAG多智能体数据偏好，构思巧妙。
聚焦关键瓶颈：明确指出并验证了在RAG系统中，优化生成模块的知识利用与协调能力比单纯优化检索/过滤模块更为关键和有效。
深入的机理分析：不仅展示了性能提升，还通过详实的实验（如内部知识测试、抗噪声测试、响应长度分析）深入剖析了DDR方法为何有效，揭示了其缓解灾难性遗忘和知识冲突的内在机制。
强大的泛化性与可扩展性：方法在多种任务、不同规模LLM上均表现优异。附加实验还表明，该方法可以扩展到包含更多智能体（如增加摘要模块）的复杂RAG系统中，展现了良好的可扩展性。
六、 其他有价值的内容
论文还提供了详细的附录，包括： * 训练数据构建过程：详细说明了如何为DDR训练生成正负样本对。 * 提示词模板：公开了用于知识精炼和生成的具体提示词设计，具有很高的参考价值。 * 与更多基线的比较：例如与FILCO和InstructRAG等方法的对比，进一步验证了DDR的优势。 * 大规模LLM实验：在Qwen2.5-14B上的实验表明DDR方法同样有效，证明了其在不同规模模型上的适用性。
总而言之，RAG-DDR研究为优化复杂的、模块化的RAG系统提供了一种行之有效且解释性强的端到端训练方案，对于推动构建更可靠、更高效的检索增强生成系统具有重要意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问