DRAG：基于证据和知识图谱的RAG蒸馏框架，用于向小型语言模型迁移知识并缓解幻觉

分享自：
DRAG：基于证据和知识图谱的RAG蒸馏框架，用于向小型语言模型迁移知识并缓解幻觉

期刊:proceedings of the annual meeting of the association for computational linguistics
本文介绍了一种名为 DRAG (Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-Based Distillation) 的全新框架。这项研究发表于 2025年，收录在 Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) 中，由来自 VILA Lab, Mohamed Bin Zayed University of AI，以及 McGill University 和 National University of Science and Technology 的研究人员 Jennifer Chen, Aidar Myrzakhan, Yaxin Luo, Hassaan Muhammad Khan, Sondos Mahmoud Bsharat, Zhiqiang Shen 共同完成。
一、 研究的学术背景
本研究属于自然语言处理（NLP） 和人工智能领域，聚焦于检索增强生成（Retrieval-Augmented Generation, RAG） 技术的改进与优化。
研究背景与动机： 检索增强生成（RAG）方法通过整合外部知识检索与文本生成能力，在需要事实一致性和知识检索的任务中表现出色。然而，现有的大规模RAG系统存在两大核心痛点：1) 计算资源消耗巨大，需要维护大规模知识库，且主要面向大型语言模型（LLMs），难以在资源受限环境中部署到小型语言模型（SLMs）上；2) 幻觉（Hallucination）问题，即模型生成看似合理但事实错误的信息。此外，依赖云端大型模型进行检索和生成时，用户的查询可能包含隐私信息，存在隐私泄露风险。因此，研究者们旨在寻找一种方法，既能将LLMs强大的RAG能力高效地迁移给更小、更高效的SLMs，又能显著缓解幻觉问题，并兼顾用户隐私保护。
研究目的： 本研究的主要目标是提出并验证一个名为 DRAG 的蒸馏框架。该框架的核心思想不是直接将大模型的输出作为小模型的训练目标，而是从一个大型LLMs（教师模型）中蒸馏出证据（Evidence） 和知识图谱（Knowledge Graph） ，并将其作为结构化的上下文知识，指导小型SLMs（学生模型）进行生成。其具体目标包括：1) 高效知识迁移：将LLMs的RAG能力（特别是检索和基于证据推理的能力）转移到SLMs，在保证性能的同时大幅降低模型大小与计算成本；2) 缓解幻觉：通过利用来自教师的、经过排序的、高质量的证据和结构化的知识图谱，将学生模型的输出“锚定”在外部事实基础上，从而提高事实准确性并减少错误生成；3) 探索隐私保护应用：作为一个额外的应用案例，展示DRAG框架如何通过本地SLM重写查询，在利用云端LLMs知识的同时，有效降低用户隐私泄露风险。
二、 详细的工作流程
DRAG框架是一个分步、端到端的蒸馏与推理流程，包含四个核心步骤，整体流程如算法1和文中图1所示。
流程一：证据生成 首先，对于一个输入问题 q，研究者利用一个强大的大型语言模型（LLM）（称为教师模型，如GPT-4o）来生成相关的背景知识，而不是使用传统的向量检索器。他们设计特定的提示词（Prompt），引导教师模型生成一组（例如 n=15 个）文本证据片段（Textual Evidences），记为 D = {d1, d2, ..., dn}。提示词明确要求模型只提供相关的事实陈述，而不直接给出答案，以避免答案泄露。这个步骤的核心理念是，训练充分的大型LLM本身就是强大且高效的“检索器”，其内部知识对于能力较弱的目标SLM来说，是比传统基于索引的检索更优质的知识源。
流程二：RAG证据排序 生成的证据集在数量和质量上可能存在冗余或偏差。为了筛选出最相关、最可靠的知识，本步骤采用了一个双层排序机制来评估每个证据 di 与问题 q 的相关性。 1. 语义相似度评分：使用 Sentence-Transformers 模型将证据 di 和问题 q 分别编码为向量 ei 和 q，然后计算它们的余弦相似度（Cosine Similarity） 作为评分 score_i^(sim)。 2. LLM基于的排序评分：同时，再次调用同一个教师LLM，让其根据对问题的理解，对证据集中的每个片段进行内在的相关性评估，给出一个排序分数 rank_LLM(di)。 3. 综合排序与过滤：将上述两个分数进行等权重相加，得到每个证据的综合分数 si。之后，根据分数对所有证据进行排序，并保留排名最高的一个子集 D_filtered（例如，保留得分最高的k个证据）。这一过滤步骤确保了只有最相关的证据会被传递到后续阶段，减少了噪声。
流程三：图RAG生成 为了进一步结构化知识，并将其以更紧凑、关系明确的形式表示，本研究将文本证据转换为知识图谱（Knowledge Graph）。 1. 关系三元组抽取：对于过滤后的每个证据 di ∈ D_filtered，再次提示教师LLM从文本中提取结构化的关系三元组（Relationship Triples），形式为 (实体a, 实体b, 关系r)。这些三元组构成了知识的原子单位。 2. 图谱构建与简化：将所有提取的三元组合并，构建一个多重关系图（Multigraph RAG Structure），其中节点是实体，边是关系。由于同一对实体之间可能存在多条关系，为了减少计算开销并提高效率，研究者引入了 “简单图聚合” 方法。具体来说，当一对实体间存在多个关系时，会提示教师LLM将这些关系语句合并（Summarize）成一个更精炼的陈述，从而得到一个更简洁、无重复边的简化RAG图。这种表示方式虽然会损失一些文本细节，但极大地压缩了上下文长度，为SLM节省了宝贵的计算资源，同时保留了核心的关系信息。
流程四：小型语言模型评估与生成 这是框架的最终推理阶段。经过前三步，我们得到了两类蒸馏后的知识：经过排序的文本证据集 和 结构化的关系图谱（或仅保留其中最关键的若干条关系）。随后，将原始问题 q、选出的顶级证据 D_filtered 和/或顶级关系三元组 {(aj, bj, rj)} 组合成一个丰富的上下文提示，输入给小型语言模型（SLM）（学生模型）。学生模型基于这些由教师模型精心提炼和组织的上下文信息，生成最终的答案 y_hat。通过这种方式，SLM的生成过程被“接地”到了外部证据和结构化知识上，从而有望模仿教师的证据驱动推理模式，减少自身因知识不足或参数限制而产生的幻觉。
特殊的隐私保护流程： 作为一个应用案例，研究还设计了一个隐私缓解机制。其工作流与上述核心流程略有不同：1) 本地重写：用户原始（可能包含隐私信息）的查询首先由本地部署的SLM进行重写（Rephrase），旨在剥离敏感信息，生成一个去隐私化的、语义等价的查询。2) 云端处理：将重写后的查询发送到云端的大型教师LLM，该模型执行前述的DRAG流程（证据生成、排序、图谱生成），但无法接触到原始隐私数据。3) 本地生成：云端生成的证据和图谱被传回本地SLM，由本地SLM结合这些知识生成最终答案。这样，既利用了云端大模型的强大知识处理能力，又保证了用户的原始隐私数据不离开本地设备。
三、 主要的研究结果
本研究在多个人工智能标准基准数据集上进行了广泛的实验评估，包括 ARC-Challenge, MedMCQA, GPQA, MMLU, Open-LLM-Leaderboard, AverITec 以及一个自建的隐私泄漏基准数据集。
1. 与现有先进方法的对比结果（如表1所示）： * 性能显著提升：DRAG框架显著提升了SLMs在各种RAG任务上的性能。在ARC-Challenge数据集上，使用同一SLM骨干模型（如Phi-3.5-mini-instruct），DRAG获得了最高94.1%的准确率，大幅超越了之前的SOTA方法如Self-RAG (67.3%) 和 CRAG (68.6%)，提升幅度超过25个百分点。 * 超越同期先进方法：与同期专门为SLMs设计的MiniRAG框架相比，DRAG在使用相同SLM（如Gemma-2-2b-it）时，在MedMCQA、MMLU和ARC-C数据集上分别取得了高达+23.9%、+13.9%和+22.9%的准确率提升。这证明了DRAG在知识蒸馏和幻觉缓解方面的有效性。
2. 消融实验与关键因素分析： * 证据/关系数量k的影响（如表2所示）：实验表明，性能并不随检索项数量增加而无限提升。在ARC-C任务上，对于大多数SLM，当证据数量 k 达到 15 左右时，性能达到最佳或趋于稳定。过少的证据（如5个）导致知识不足，过多的证据（如20个）则可能引入冗余和噪声，导致性能轻微下降或计算浪费。使用图谱关系（Graph Only）相比原始证据（Evidence Only）性能略低，但计算效率更高；而结合两者（Combined）并未带来显著额外收益，反而增加开销，表明高质量的文本证据本身已足够有效。 * 不同教师LLMs的影响（如表3所示）：一个有趣的发现是，更强大的教师模型并不总是产生更好的学生性能。实验结果表明，在MedMCQA数据集上，教师模型的优劣排序大致为：GPT-4o > Claude 3.5 Sonnet > DeepSeek V3 > LLaMA 3.3 70B > Gemini 1.5 Flash。这表明，证据生成的质量、结构性和与事实的对齐程度比单纯使用一个“更聪明”的模型更为关键。GPT-4o在生成高质量、结构良好的证据方面表现最佳。 * 计算效率对比（如表5所示）：知识图谱表示显著降低了计算负载。统计显示，图谱关系的平均长度比原始文本证据短了约 18.1%。这意味着在图谱模式下，SLM需要处理的上下文令牌数更少，推理速度更快，尤其适合资源受限或需要实时响应的场景。
3. 多类任务上的泛化性能： * 多项选择题回答（MCQA）：在ARC-C, MedMCQA, GPQA, MMLU四个基准上，DRAG都带来了大幅性能提升。例如，Gemma-2-9b-it模型在MMLU上的准确率从71.8%提升至77.8%；较小的Gemma-2-2b-it也从56.8%提升至71.2%，证明了有效的知识迁移。 * 开放式问题回答（Open QA）：在Open-LLM-Leaderboard上，DRAG同样表现出色。使用GPT-4o-mini作为教师，证据蒸馏（DRAG_E）使Qwen2.5-7b-instruct的得分从44.67%提升至52.36%，提升显著。这表明DRAG不仅适用于选择题，也能提升开放生成任务的质量。 * 事实核查（Fact Verification）：在AverITec数据集上，DRAG帮助Bloom-7b和GPT-3.5-turbo的准确率分别提升了6.43%和20.10%。这表明框架对于需要严格事实核实的任务也有效。
4. 隐私保护评估结果（如表4所示）： * 高效隐私过滤：在构建的包含15,090个模拟个人可识别信息（PII）的隐私敏感数据集上，经过本地SLM的隐私过滤后，仅剩649个PII残留，PII整体减少了95.7%，证明了隐私过滤机制的有效性。 * 性能保持：更重要的是，在进行了如此严格的隐私过滤后，DRAG框架在隐私增强版的MMLU数据集上依然保持了强劲的性能。例如，Qwen2.5-7b-instruct的准确率从基线69.71%提升至76.16%（使用15个证据），Gemma-2-9b-it从69.73%提升至76.49%。这说明隐私保护并未以牺牲模型回答准确性为代价。
这些实验结果逻辑清晰地串联起来：首先，对比实验证明了DRAG框架本身的优越性（结果1）；接着，消融实验深入剖析了框架内部关键设计选择（证据数量、教师选择、表示形式）的影响，验证了设计决策的合理性（结果2）；然后，跨多种任务的实验证明了DRAG的通用性和鲁棒性（结果3）；最后，专门的隐私保护实验展示了框架的额外应用价值和社会意义（结果4）。所有这些结果共同支撑了研究的核心结论：DRAG能够有效、高效地将RAG能力从LLM蒸馏到SLM，并缓解幻觉问题。
四、 研究的结论与价值
本研究提出了DRAG，一个创新的、基于证据和知识图谱引导的RAG蒸馏框架。其核心结论是：通过从大型LLM中蒸馏出经过排序的高质量文本证据和结构化的知识图谱，并将其作为上下文引导小型SLM进行生成，可以在显著降低计算资源需求（模型尺寸小）的同时，有效地将RAG的知识检索和事实一致性优势迁移给小型模型，并大幅缓解幻觉问题。
科学价值： 1. 方法论创新：提出了一种新的“结构化知识蒸馏”范式。不同于传统的输出蒸馏或特征蒸馏，DRAG专注于蒸馏“推理过程”所依赖的中间知识表示（证据和图谱），为模型压缩和知识迁移研究提供了新思路。 2. 对幻觉问题的深入探索：研究验证了将模型生成“锚定”在外部、结构化证据上是缓解幻觉的有效途径，并通过实验量化了不同知识表示形式（文本vs.图谱）对缓解效果和效率的影响。 3. 连接LLM与SLM的桥梁：为解决“大模型能力强但成本高、小模型成本低但能力弱”的矛盾提供了一个切实可行的解决方案，推动了高性能NLP技术在边缘计算和资源受限场景下的落地。
应用价值： 1. 降低部署门槛：使小型、高效的模型能够具备接近大型模型的复杂问答和知识检索能力，有助于在移动设备、嵌入式系统或对延迟和成本敏感的商业应用中部署高质量的AI助手。 2. 隐私增强计算：框架内嵌的隐私保护机制（本地重写查询）为在医疗、金融、法律等敏感领域安全地利用云端AI能力提供了潜在方案，平衡了性能与隐私。 3. 提供实用路线图：论文提供了完整的算法描述、实验细节和代码（已开源），为研究社区和工业界实践高效的RAG蒸馏提供了可复现的蓝图。
五、 研究的亮点
核心创新点：将证据排序与知识图谱构建融入RAG蒸馏流程是本研究最大的亮点。它不是简单的黑箱知识迁移，而是通过结构化、可解释的中间表示（证据和图谱）来传递教师的“推理依据”，从而更精准地提升学生模型的事实性和逻辑性。
显著的性能提升：实验结果表明，DRAG在多个权威基准上大幅超越了之前的先进方法，特别是在提升小型模型性能方面效果惊人（部分任务提升超过27%），实证效果非常扎实。
兼顾效率与性能：框架明确考虑了计算开销。通过证据过滤和图谱简化，在保证性能的同时优化了传递给SLM的上下文长度，使得整个方案不仅有效，而且实用。
超越核心任务的探索：研究没有局限于核心的蒸馏任务，而是主动构建隐私基准，并展示了DRAG框架在隐私保护这一重要现实问题上的应用潜力，拓宽了工作的外延和社会价值。
全面深入的实验分析：论文进行了极其详尽的实验，包括与SOTA对比、广泛的消融研究（教师模型、证据数量、表示形式）、多种任务类型验证以及专门的隐私评估，分析全面，结论令人信服。
六、 其他有价值的说明
论文也坦诚地讨论了DRAG框架的局限性：1) 知识保留的权衡：在蒸馏过程中，教师模型中一些细微的、隐性的知识可能会丢失，这可能影响在需要创造性或主观判断的任务上的表现。2) 蒸馏过程的开销：虽然SLM推理高效，但蒸馏过程本身（生成和排序证据、构建图谱）仍然需要调用大型教师模型，产生计算成本。未来可以探索优化这部分开销。3) 潜在的答案泄露风险：尽管在提示中要求教师模型不直接给出答案，但仍存在证据无意中泄露答案线索的风险，作者通过设计提示和筛选来尽力缓解这一问题。
此外，论文包含了伦理声明，指出在医疗、法律等高风险领域，即使使用DRAG减轻了幻觉，仍需要人类监督来确保输出符合伦理和专业标准。同时，模型可能继承教师模型和数据中的偏见，需要持续的评估和缓解。
DRAG是一项设计精巧、实验充分、贡献显著的研究工作，为在资源受限环境下部署强大、可靠且更安全的语言模型提供了新的路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问