本文介绍了一种名为 DRAG (Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-Based Distillation) 的全新框架。这项研究发表于 2025年,收录在 Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) 中,由来自 VILA Lab, Mohamed Bin Zayed University of AI,以及 McGill University 和 National University of Science and Technology 的研究人员 Jennifer Chen, Aidar Myrzakhan, Yaxin Luo, Hassaan Muhammad Khan, Sondos Mahmoud Bsharat, Zhiqiang Shen 共同完成。
一、 研究的学术背景
本研究属于自然语言处理(NLP) 和人工智能领域,聚焦于检索增强生成(Retrieval-Augmented Generation, RAG) 技术的改进与优化。
研究背景与动机: 检索增强生成(RAG)方法通过整合外部知识检索与文本生成能力,在需要事实一致性和知识检索的任务中表现出色。然而,现有的大规模RAG系统存在两大核心痛点:1) 计算资源消耗巨大,需要维护大规模知识库,且主要面向大型语言模型(LLMs),难以在资源受限环境中部署到小型语言模型(SLMs)上;2) 幻觉(Hallucination)问题,即模型生成看似合理但事实错误的信息。此外,依赖云端大型模型进行检索和生成时,用户的查询可能包含隐私信息,存在隐私泄露风险。因此,研究者们旨在寻找一种方法,既能将LLMs强大的RAG能力高效地迁移给更小、更高效的SLMs,又能显著缓解幻觉问题,并兼顾用户隐私保护。
研究目的: 本研究的主要目标是提出并验证一个名为 DRAG 的蒸馏框架。该框架的核心思想不是直接将大模型的输出作为小模型的训练目标,而是从一个大型LLMs(教师模型)中蒸馏出证据(Evidence) 和知识图谱(Knowledge Graph) ,并将其作为结构化的上下文知识,指导小型SLMs(学生模型)进行生成。其具体目标包括:1) 高效知识迁移:将LLMs的RAG能力(特别是检索和基于证据推理的能力)转移到SLMs,在保证性能的同时大幅降低模型大小与计算成本;2) 缓解幻觉:通过利用来自教师的、经过排序的、高质量的证据和结构化的知识图谱,将学生模型的输出“锚定”在外部事实基础上,从而提高事实准确性并减少错误生成;3) 探索隐私保护应用:作为一个额外的应用案例,展示DRAG框架如何通过本地SLM重写查询,在利用云端LLMs知识的同时,有效降低用户隐私泄露风险。
二、 详细的工作流程
DRAG框架是一个分步、端到端的蒸馏与推理流程,包含四个核心步骤,整体流程如算法1和文中图1所示。
流程一:证据生成 首先,对于一个输入问题 q,研究者利用一个强大的大型语言模型(LLM)(称为教师模型,如GPT-4o)来生成相关的背景知识,而不是使用传统的向量检索器。他们设计特定的提示词(Prompt),引导教师模型生成一组(例如 n=15 个)文本证据片段(Textual Evidences),记为 D = {d1, d2, ..., dn}。提示词明确要求模型只提供相关的事实陈述,而不直接给出答案,以避免答案泄露。这个步骤的核心理念是,训练充分的大型LLM本身就是强大且高效的“检索器”,其内部知识对于能力较弱的目标SLM来说,是比传统基于索引的检索更优质的知识源。
流程二:RAG证据排序 生成的证据集在数量和质量上可能存在冗余或偏差。为了筛选出最相关、最可靠的知识,本步骤采用了一个双层排序机制来评估每个证据 di 与问题 q 的相关性。 1. 语义相似度评分:使用 Sentence-Transformers 模型将证据 di 和问题 q 分别编码为向量 ei 和 q,然后计算它们的余弦相似度(Cosine Similarity) 作为评分 score_i^(sim)。 2. LLM基于的排序评分:同时,再次调用同一个教师LLM,让其根据对问题的理解,对证据集中的每个片段进行内在的相关性评估,给出一个排序分数 rank_LLM(di)。 3. 综合排序与过滤:将上述两个分数进行等权重相加,得到每个证据的综合分数 si。之后,根据分数对所有证据进行排序,并保留排名最高的一个子集 D_filtered(例如,保留得分最高的k个证据)。这一过滤步骤确保了只有最相关的证据会被传递到后续阶段,减少了噪声。
流程三:图RAG生成 为了进一步结构化知识,并将其以更紧凑、关系明确的形式表示,本研究将文本证据转换为知识图谱(Knowledge Graph)。 1. 关系三元组抽取:对于过滤后的每个证据 di ∈ D_filtered,再次提示教师LLM从文本中提取结构化的关系三元组(Relationship Triples),形式为 (实体a, 实体b, 关系r)。这些三元组构成了知识的原子单位。 2. 图谱构建与简化:将所有提取的三元组合并,构建一个多重关系图(Multigraph RAG Structure),其中节点是实体,边是关系。由于同一对实体之间可能存在多条关系,为了减少计算开销并提高效率,研究者引入了 “简单图聚合” 方法。具体来说,当一对实体间存在多个关系时,会提示教师LLM将这些关系语句合并(Summarize)成一个更精炼的陈述,从而得到一个更简洁、无重复边的简化RAG图。这种表示方式虽然会损失一些文本细节,但极大地压缩了上下文长度,为SLM节省了宝贵的计算资源,同时保留了核心的关系信息。
流程四:小型语言模型评估与生成 这是框架的最终推理阶段。经过前三步,我们得到了两类蒸馏后的知识:经过排序的文本证据集 和 结构化的关系图谱(或仅保留其中最关键的若干条关系)。随后,将原始问题 q、选出的顶级证据 D_filtered 和/或顶级关系三元组 {(aj, bj, rj)} 组合成一个丰富的上下文提示,输入给小型语言模型(SLM)(学生模型)。学生模型基于这些由教师模型精心提炼和组织的上下文信息,生成最终的答案 y_hat。通过这种方式,SLM的生成过程被“接地”到了外部证据和结构化知识上,从而有望模仿教师的证据驱动推理模式,减少自身因知识不足或参数限制而产生的幻觉。
特殊的隐私保护流程: 作为一个应用案例,研究还设计了一个隐私缓解机制。其工作流与上述核心流程略有不同:1) 本地重写:用户原始(可能包含隐私信息)的查询首先由本地部署的SLM进行重写(Rephrase),旨在剥离敏感信息,生成一个去隐私化的、语义等价的查询。2) 云端处理:将重写后的查询发送到云端的大型教师LLM,该模型执行前述的DRAG流程(证据生成、排序、图谱生成),但无法接触到原始隐私数据。3) 本地生成:云端生成的证据和图谱被传回本地SLM,由本地SLM结合这些知识生成最终答案。这样,既利用了云端大模型的强大知识处理能力,又保证了用户的原始隐私数据不离开本地设备。
三、 主要的研究结果
本研究在多个人工智能标准基准数据集上进行了广泛的实验评估,包括 ARC-Challenge, MedMCQA, GPQA, MMLU, Open-LLM-Leaderboard, AverITec 以及一个自建的隐私泄漏基准数据集。
1. 与现有先进方法的对比结果(如表1所示): * 性能显著提升:DRAG框架显著提升了SLMs在各种RAG任务上的性能。在ARC-Challenge数据集上,使用同一SLM骨干模型(如Phi-3.5-mini-instruct),DRAG获得了最高94.1%的准确率,大幅超越了之前的SOTA方法如Self-RAG (67.3%) 和 CRAG (68.6%),提升幅度超过25个百分点。 * 超越同期先进方法:与同期专门为SLMs设计的MiniRAG框架相比,DRAG在使用相同SLM(如Gemma-2-2b-it)时,在MedMCQA、MMLU和ARC-C数据集上分别取得了高达+23.9%、+13.9%和+22.9%的准确率提升。这证明了DRAG在知识蒸馏和幻觉缓解方面的有效性。
2. 消融实验与关键因素分析: * 证据/关系数量k的影响(如表2所示):实验表明,性能并不随检索项数量增加而无限提升。在ARC-C任务上,对于大多数SLM,当证据数量 k 达到 15 左右时,性能达到最佳或趋于稳定。过少的证据(如5个)导致知识不足,过多的证据(如20个)则可能引入冗余和噪声,导致性能轻微下降或计算浪费。使用图谱关系(Graph Only)相比原始证据(Evidence Only)性能略低,但计算效率更高;而结合两者(Combined)并未带来显著额外收益,反而增加开销,表明高质量的文本证据本身已足够有效。 * 不同教师LLMs的影响(如表3所示):一个有趣的发现是,更强大的教师模型并不总是产生更好的学生性能。实验结果表明,在MedMCQA数据集上,教师模型的优劣排序大致为:GPT-4o > Claude 3.5 Sonnet > DeepSeek V3 > LLaMA 3.3 70B > Gemini 1.5 Flash。这表明,证据生成的质量、结构性和与事实的对齐程度比单纯使用一个“更聪明”的模型更为关键。GPT-4o在生成高质量、结构良好的证据方面表现最佳。 * 计算效率对比(如表5所示):知识图谱表示显著降低了计算负载。统计显示,图谱关系的平均长度比原始文本证据短了约 18.1%。这意味着在图谱模式下,SLM需要处理的上下文令牌数更少,推理速度更快,尤其适合资源受限或需要实时响应的场景。
3. 多类任务上的泛化性能: * 多项选择题回答(MCQA):在ARC-C, MedMCQA, GPQA, MMLU四个基准上,DRAG都带来了大幅性能提升。例如,Gemma-2-9b-it模型在MMLU上的准确率从71.8%提升至77.8%;较小的Gemma-2-2b-it也从56.8%提升至71.2%,证明了有效的知识迁移。 * 开放式问题回答(Open QA):在Open-LLM-Leaderboard上,DRAG同样表现出色。使用GPT-4o-mini作为教师,证据蒸馏(DRAG_E)使Qwen2.5-7b-instruct的得分从44.67%提升至52.36%,提升显著。这表明DRAG不仅适用于选择题,也能提升开放生成任务的质量。 * 事实核查(Fact Verification):在AverITec数据集上,DRAG帮助Bloom-7b和GPT-3.5-turbo的准确率分别提升了6.43%和20.10%。这表明框架对于需要严格事实核实的任务也有效。
4. 隐私保护评估结果(如表4所示): * 高效隐私过滤:在构建的包含15,090个模拟个人可识别信息(PII)的隐私敏感数据集上,经过本地SLM的隐私过滤后,仅剩649个PII残留,PII整体减少了95.7%,证明了隐私过滤机制的有效性。 * 性能保持:更重要的是,在进行了如此严格的隐私过滤后,DRAG框架在隐私增强版的MMLU数据集上依然保持了强劲的性能。例如,Qwen2.5-7b-instruct的准确率从基线69.71%提升至76.16%(使用15个证据),Gemma-2-9b-it从69.73%提升至76.49%。这说明隐私保护并未以牺牲模型回答准确性为代价。
这些实验结果逻辑清晰地串联起来:首先,对比实验证明了DRAG框架本身的优越性(结果1);接着,消融实验深入剖析了框架内部关键设计选择(证据数量、教师选择、表示形式)的影响,验证了设计决策的合理性(结果2);然后,跨多种任务的实验证明了DRAG的通用性和鲁棒性(结果3);最后,专门的隐私保护实验展示了框架的额外应用价值和社会意义(结果4)。所有这些结果共同支撑了研究的核心结论:DRAG能够有效、高效地将RAG能力从LLM蒸馏到SLM,并缓解幻觉问题。
四、 研究的结论与价值
本研究提出了DRAG,一个创新的、基于证据和知识图谱引导的RAG蒸馏框架。其核心结论是:通过从大型LLM中蒸馏出经过排序的高质量文本证据和结构化的知识图谱,并将其作为上下文引导小型SLM进行生成,可以在显著降低计算资源需求(模型尺寸小)的同时,有效地将RAG的知识检索和事实一致性优势迁移给小型模型,并大幅缓解幻觉问题。
科学价值: 1. 方法论创新:提出了一种新的“结构化知识蒸馏”范式。不同于传统的输出蒸馏或特征蒸馏,DRAG专注于蒸馏“推理过程”所依赖的中间知识表示(证据和图谱),为模型压缩和知识迁移研究提供了新思路。 2. 对幻觉问题的深入探索:研究验证了将模型生成“锚定”在外部、结构化证据上是缓解幻觉的有效途径,并通过实验量化了不同知识表示形式(文本vs.图谱)对缓解效果和效率的影响。 3. 连接LLM与SLM的桥梁:为解决“大模型能力强但成本高、小模型成本低但能力弱”的矛盾提供了一个切实可行的解决方案,推动了高性能NLP技术在边缘计算和资源受限场景下的落地。
应用价值: 1. 降低部署门槛:使小型、高效的模型能够具备接近大型模型的复杂问答和知识检索能力,有助于在移动设备、嵌入式系统或对延迟和成本敏感的商业应用中部署高质量的AI助手。 2. 隐私增强计算:框架内嵌的隐私保护机制(本地重写查询)为在医疗、金融、法律等敏感领域安全地利用云端AI能力提供了潜在方案,平衡了性能与隐私。 3. 提供实用路线图:论文提供了完整的算法描述、实验细节和代码(已开源),为研究社区和工业界实践高效的RAG蒸馏提供了可复现的蓝图。
五、 研究的亮点
六、 其他有价值的说明
论文也坦诚地讨论了DRAG框架的局限性:1) 知识保留的权衡:在蒸馏过程中,教师模型中一些细微的、隐性的知识可能会丢失,这可能影响在需要创造性或主观判断的任务上的表现。2) 蒸馏过程的开销:虽然SLM推理高效,但蒸馏过程本身(生成和排序证据、构建图谱)仍然需要调用大型教师模型,产生计算成本。未来可以探索优化这部分开销。3) 潜在的答案泄露风险:尽管在提示中要求教师模型不直接给出答案,但仍存在证据无意中泄露答案线索的风险,作者通过设计提示和筛选来尽力缓解这一问题。
此外,论文包含了伦理声明,指出在医疗、法律等高风险领域,即使使用DRAG减轻了幻觉,仍需要人类监督来确保输出符合伦理和专业标准。同时,模型可能继承教师模型和数据中的偏见,需要持续的评估和缓解。
DRAG是一项设计精巧、实验充分、贡献显著的研究工作,为在资源受限环境下部署强大、可靠且更安全的语言模型提供了新的路径。