分享自:

SECON-RAG:一个用于可信检索增强生成的两阶段语义过滤与无冲突框架

期刊:39th conference on neural information processing systems (NeurIPS 2025)

面向可信检索增强生成(RAG)系统的两阶段语义过滤与冲突消除框架:SeCon-RAG 研究报告

本文由来自多所研究机构的学者合作完成,主要作者包括:Xiaonan Si(中国科学院软件研究所)、Meilin Zhu(中国科学院软件研究所/软件研究所系统软件重点实验室 & 计算机科学国家重点实验室/中国科学院大学)、Simeng Qin(东北大学)、Lijia Yu(南京人工智能产业研究院)、Lijun Zhang(中国科学院软件研究所)等。该研究已发表于第39届神经信息处理系统大会(39th Conference on Neural Information Processing Systems, NeurIPS 2025)。

一、 研究背景

本研究聚焦于人工智能领域中的大语言模型(Large Language Models, LLMs)安全与增强技术,具体针对检索增强生成(Retrieval-Augmented Generation, RAG)系统的安全防御问题。RAG通过为LLMs动态引入外部知识库来弥补其训练数据固有缺陷(如知识过时、幻觉),从而提升生成内容的准确性和时效性,已成为增强LLMs事实性能力的关键范式。

然而,RAG系统的开放性和对外部知识库的依赖使其面临新的安全威胁,特别是语料库投毒攻击污染攻击。攻击者可以向检索库中注入精心构造的恶意文档,误导RAG系统在生成答案时采纳错误信息,从而破坏输出的完整性、真实性,甚至进行隐蔽的恶意内容传播。现有的防御策略(如对抗训练、粗粒度过滤、基于多数投票的冲突解决)存在明显局限:一是采用粗粒度过滤会不加区分地丢弃大量有价值的正常信息,降低系统的可用性;二是未能有效解决检索到的外部知识与LLM内部知识之间、以及不同检索结果之间的冲突,导致生成结果仍不可信。

基于此,本研究团队提出了一种名为SeCon-RAG(A Two-Stage Semantic Filtering and Conflict-free Framework for Trustworthy RAG)的新型两阶段防御框架。其核心目标在于:在有效抵御投毒攻击的同时,最大限度地保留有用知识,并通过细粒度语义分析解决内外知识冲突,最终实现既鲁棒又可信的RAG系统输出。

二、 研究流程与方法

SeCon-RAG框架的核心创新在于将结构化语义信息(通过其提出的EIRE模块提取)深度融入RAG的检索和推理阶段,通过两个紧密协作的模块实现分层防御。

第一阶段:语义与聚类联合过滤(Semantic and Clustering-based Filtering, SCF) 该阶段在检索发生前对候选文档库进行预处理,旨在从大量文档中快速识别并过滤潜在的恶意文档。 1. 核心模块:实体-意图-关系提取器(Entity-Intent-Relation Extractor, EIRE)。为了实现对文档内容的细粒度理解,研究团队设计并开发了EIRE模块。它是一个基于提示(prompt-based)的大语言模型组件,能够从输入的文档(或查询)中提取出三个核心语义结构: * 实体(Entities):文本中明确或隐含提及的关键对象(如人物、地点、时间、概念)。 * 意图(Intent):文档所传达的核心目的或主张。 * 关系(Relations):提取出的实体之间的语义联系(如“打败了”、“由…制造”)。 对于一个文档 *d*,EIRE输出一个结构化三元组 *(Ed, Id, Rd)*。该模块为后续的语义比较和冲突检测提供了可解释的基础。 2. 聚类过滤(Clustering-based Filtering)。观察到对抗生成的投毒文档(特别是针对同一查询的)在嵌入向量空间中倾向于形成紧密的簇,研究团队首先对潜在受污染的整个文档集 D’ 进行嵌入表示,并应用K-means聚类算法。对于每个聚类簇,计算其内文档与簇质心的相似度。将相似度高于预设阈值 τ_cluster 的文档视为“过于紧密聚集”的可疑文档,予以过滤。此步骤利用投毒文档的分布特性进行快速、无监督的异常检测。 3. 基于语义图的语义过滤(Semantic Graph-based Filtering)。仅依靠向量聚类可能会误伤主题相似但有价值的文档(假阳性)。为此,研究团队提出了一种基于EIRE的语义图过滤方法。 * 基准图构建:首先,从一个小规模的手动验证的正确文档集(D_cor) 中提取语义结构,为每个文档构建一个语义图(G_d)。图中节点为实体嵌入,边为EIRE提取出的实体间关系。 * 语义图相似度评估:对于待过滤的候选文档 *d*,同样使用EIRE构建其语义图 *G_d*。研究团队并未使用传统图相似度度量,而是巧妙地利用LLM自身的语义推理能力,通过设计专门的提示(prompt),让LLM对比候选文档的语义图 G_d 与基准语义图集 G_cor 在语义上的相似度,并输出一个介于0到1之间的评分 *ssg(d, d_cor)*。评分越高,表示候选文档的语义结构与可信文档越相似。通过案例分析(见原文图2)可知,正确的文档其语义图通常结构致密、逻辑连贯,而投毒文档的语义图则可能呈现稀疏、断裂或包含孤立、反常的连接。 * 语义过滤:将语义相似度评分 低于 预设阈值 τ_semantic 的文档过滤掉。 4. 联合过滤决策。为了在增强鲁棒性的同时最小化信息损失,SCF采用保守的“与”逻辑:只有同时被聚类过滤和语义过滤判定为可疑的文档,才会被最终移除。最终保留的文档集 = D’ \ (D_cluster ∩ D_semantic)。这种双通道机制确保了既能过滤掉多数恶意文档,又能保护潜在的有价值信息不被误删。

第二阶段:冲突感知过滤(Conflict-Aware Filtering, CAF) SCF模块之后,进入标准RAG流程:根据查询 q 从过滤后的库 中检索出Top-K相关文档 *D_k(q)*。CAF模块作用于推理阶段,在生成最终答案前,对这些候选文档进行最后一轮精细的语义一致性审查。 1. 冲突检测维度:对于 D_k(q) 中的每一个候选文档 *d*,CAF再次利用EIRE提取其语义结构,并从三个维度评估其可信度: * 查询一致性(Query Consistency, Q):文档的“意图”和“实体”是否与用户查询 q 在语义上对齐? * 语料一致性(Corpus Consistency, C):文档(基于其“关系”和上下文)是否与其他被检索到的文档 D_k(q) \ d 保持一致,有无矛盾? * 模型一致性(Model Consistency, M):文档中的关键“实体”及其陈述的事实,是否与LLM自身的内部知识兼容? 2. LLM引导的决策:CAF通过设计特定的提示,引导LLM综合以上三个维度的EIRE语义信息,对每个候选文档做出判断:是可信的(Trustable)、投毒的(Poisoned)、冲突的(Conflicting)还是无关的(Irrelevant)。 3. 最终生成:仅将那些被标记为“可信”的文档 D̃_caf 与原始查询 q 一起,送入生成模型 *f*(即LLM)来产生最终答案 *a(q)*。这确保了生成模块基于的是一个语义连贯、查询相关且事实对齐的知识子集。

三、 主要实验结果

研究团队在三个开放的问答基准数据集(Natural Questions, HotpotQA, MS-MARCO)和五个不同规模和类型的LLM(Llama-3.1-8B, Mistral-12B, GPT-4o, DeepSeek-R1, Qwen-7B)上进行了广泛的实验,对比了SeCon-RAG与多个代表性基线方法(VanillaRAG, InstructRAG, AstuteRAG, TrustRAG)的性能。 1. 攻击场景:实验考虑了两种主要攻击——语料库投毒攻击(PoisonedRAG,设定20%和100%投毒率)和提示注入攻击(Prompt Injection Attack, PIA),以及无攻击的干净(Clean)场景。 2. 评估指标:使用准确率(Accuracy, Acc)攻击成功率(Attack Success Rate, ASR) 作为核心评价指标。 3. 关键结果: * 全面优越的鲁棒性:如表1所示,在几乎所有数据集、LLM和攻击设置下,SeCon-RAG在准确率和攻击成功率上均达到或超越了当前最佳基线方法(通常是TrustRAG)。例如,在GPT-4o上处理100%投毒的HotpotQA时,SeCon-RAG获得了83.6%的准确率和2.4%的ASR,优于TrustRAG的80.9%/2.7%。在低投毒率(20%)和PIA攻击下,SeCon-RAG也 consistently 展现出更优的稳健性。 * 不损害良性性能:在无攻击的干净设置下,SeCon-RAG的准确率不仅没有下降,反而在多数情况下高于基线方法,证明了其防御机制不会因为“过度防御”而损失有用的检索内容。例如,在MS-MARCO上使用DeepSeek-R1时,SeCon-RAG取得了94.0%的准确率。 * 消融研究验证模块有效性:针对Mistral-12B的消融实验(原文图3)表明,移除SCF或CAF中的任何一个模块都会导致性能显著下降,尤其是CAF的移除会引发ASR的大幅上升,这凸显了两个阶段协作的重要性。进一步的子模块消融也证实了聚类过滤与语义过滤、以及EIRE模块和验证正确文档集(*D_cor*)各自的价值。 * 实用性与泛化性:运行时分析(原文图4)显示SeCon-RAG引入了中等的计算开销(每批次1.21-1.45分钟),这是其进行多层语义分析和LLM调用所付出的代价,但考虑到其带来的显著鲁棒性提升,此开销在需要高可信度的实际应用中是可接受的。此外,实验还在不同嵌入模型(MiniLM, SimCSE, BERT, BGE)上验证了SeCon-RAG框架的有效性,表明其不依赖于特定的嵌入表示(表2)。阈值敏感性分析也表明框架对关键超参数(τ_cluster, *τ_semantic*)在一定范围内不敏感,利于实际部署。

四、 研究结论与价值

本研究成功提出并验证了SeCon-RAG,这是一个创新的、面向可信RAG系统的两阶段防御框架。其核心贡献在于: 1. 首次将结构化语义信息(通过EIRE模块)系统性地引入RAG防御,实现了从粗粒度向量匹配到细粒度语义理解的跨越,显著提升了投毒内容检测的精确度。 2. 提出了一个由SCF和CAF构成的层次化防御体系:SCF在检索前进行基于统计和语义的联合过滤,有效清除大量恶意文档;CAF在推理时进行基于语义一致性的最终审查,解决残留的冲突和误导。两者协同,在保持高信息保留率的同时,确保了最终输出的高度可信。 3. 通过大量实验证明了其卓越的有效性、鲁棒性和泛化能力:SeCon-RAG能够同时应对高/低投毒率攻击和提示注入攻击,在多种LLM和数据集上均能显著降低攻击成功率,同时维持甚至提升干净环境下的性能。

该研究的科学价值在于为RAG系统的安全可信研究开辟了新的方向,即利用语义理解和推理来构建更智能、更具分辨力的防御机制。其应用价值在于为实际部署的RAG系统提供了一个即插即用(plug-and-play)的、可解释的强鲁棒性解决方案,有助于抵御日益复杂的对抗性攻击,保障基于LLM的应用在金融、医疗、法律等高风险领域的可靠运行。

五、 研究亮点

  1. 方法论的创新性:提出了首个结合语义图分析聚类分析进行联合过滤,并进一步引入多维度冲突感知推理的RAG防御框架,设计思路具有显著的原创性。
  2. EIRE模块的核心作用:自主研发的EIRE模块是整个框架的“语义引擎”,它将非结构化的文本转化为结构化的(实体,意图,关系)三元组,为后续所有高级语义操作(如图相似度比较、一致性检查)提供了可计算、可解释的基础。
  3. 层次化与互补性设计:SCF与CAF的分工体现了“粗筛+精滤”的防御哲学。SCF快速削减攻击面,CAF确保最终输入的质量。这种设计有效平衡了防御强度与信息保留之间的权衡。
  4. 实验的充分性与说服力:研究在多达5种LLM、3个数据集、多种攻击类型和强度下进行了全面测试,并辅以细致的消融分析、敏感性分析和运行时评估,结论坚实可靠。
  5. 对“可信”的深入诠释:该研究不仅关注传统意义上的“鲁棒性”(抵抗攻击),更通过CAF模块强调了“一致性”和“事实性”,将RAG的防御目标提升到了“输出可信赖”的更高层次。

六、 其他补充

研究也坦诚地指出了当前框架的局限性,主要包括:由于多轮LLM调用(EIRE提取、语义图评分、CAF决策)带来的推理延迟;对EIRE语义提取质量的依赖;以及需要一个小规模的高质量验证文档集(*D_cor*)。这些为未来的优化指明了方向,例如探索更轻量化的语义提取模型、研究高效的图相似度近似算法等,以推动SeCon-RAG在延迟敏感的真实场景中更广泛的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com