SECON-RAG：一个用于可信检索增强生成的两阶段语义过滤与无冲突框架

分享自：
SECON-RAG：一个用于可信检索增强生成的两阶段语义过滤与无冲突框架

工程学
信息科学
软件工程
人工智能
计算机科学
期刊:39th conference on neural information processing systems (NeurIPS 2025)
【点击此处】阅读全文、收藏及针对性提问
面向可信检索增强生成（RAG）系统的两阶段语义过滤与冲突消除框架：SeCon-RAG 研究报告
本文由来自多所研究机构的学者合作完成，主要作者包括：Xiaonan Si（中国科学院软件研究所）、Meilin Zhu（中国科学院软件研究所/软件研究所系统软件重点实验室 & 计算机科学国家重点实验室/中国科学院大学）、Simeng Qin（东北大学）、Lijia Yu（南京人工智能产业研究院）、Lijun Zhang（中国科学院软件研究所）等。该研究已发表于第39届神经信息处理系统大会（39th Conference on Neural Information Processing Systems, NeurIPS 2025）。
一、 研究背景
本研究聚焦于人工智能领域中的大语言模型（Large Language Models, LLMs）安全与增强技术，具体针对检索增强生成（Retrieval-Augmented Generation, RAG）系统的安全防御问题。RAG通过为LLMs动态引入外部知识库来弥补其训练数据固有缺陷（如知识过时、幻觉），从而提升生成内容的准确性和时效性，已成为增强LLMs事实性能力的关键范式。
然而，RAG系统的开放性和对外部知识库的依赖使其面临新的安全威胁，特别是语料库投毒攻击 和污染攻击。攻击者可以向检索库中注入精心构造的恶意文档，误导RAG系统在生成答案时采纳错误信息，从而破坏输出的完整性、真实性，甚至进行隐蔽的恶意内容传播。现有的防御策略（如对抗训练、粗粒度过滤、基于多数投票的冲突解决）存在明显局限：一是采用粗粒度过滤会不加区分地丢弃大量有价值的正常信息，降低系统的可用性；二是未能有效解决检索到的外部知识与LLM内部知识之间、以及不同检索结果之间的冲突，导致生成结果仍不可信。
基于此，本研究团队提出了一种名为SeCon-RAG（A Two-Stage Semantic Filtering and Conflict-free Framework for Trustworthy RAG）的新型两阶段防御框架。其核心目标在于：在有效抵御投毒攻击的同时，最大限度地保留有用知识，并通过细粒度语义分析解决内外知识冲突，最终实现既鲁棒又可信的RAG系统输出。
二、 研究流程与方法
SeCon-RAG框架的核心创新在于将结构化语义信息（通过其提出的EIRE模块提取）深度融入RAG的检索和推理阶段，通过两个紧密协作的模块实现分层防御。
第一阶段：语义与聚类联合过滤（Semantic and Clustering-based Filtering, SCF） 该阶段在检索发生前对候选文档库进行预处理，旨在从大量文档中快速识别并过滤潜在的恶意文档。 1. 核心模块：实体-意图-关系提取器（Entity-Intent-Relation Extractor, EIRE）。为了实现对文档内容的细粒度理解，研究团队设计并开发了EIRE模块。它是一个基于提示（prompt-based）的大语言模型组件，能够从输入的文档（或查询）中提取出三个核心语义结构： * 实体（Entities）：文本中明确或隐含提及的关键对象（如人物、地点、时间、概念）。 * 意图（Intent）：文档所传达的核心目的或主张。 * 关系（Relations）：提取出的实体之间的语义联系（如“打败了”、“由…制造”）。 对于一个文档 *d*，EIRE输出一个结构化三元组 *(Ed, Id, Rd)*。该模块为后续的语义比较和冲突检测提供了可解释的基础。 2. 聚类过滤（Clustering-based Filtering）。观察到对抗生成的投毒文档（特别是针对同一查询的）在嵌入向量空间中倾向于形成紧密的簇，研究团队首先对潜在受污染的整个文档集 D’ 进行嵌入表示，并应用K-means聚类算法。对于每个聚类簇，计算其内文档与簇质心的相似度。将相似度高于预设阈值 τ_cluster 的文档视为“过于紧密聚集”的可疑文档，予以过滤。此步骤利用投毒文档的分布特性进行快速、无监督的异常检测。 3. 基于语义图的语义过滤（Semantic Graph-based Filtering）。仅依靠向量聚类可能会误伤主题相似但有价值的文档（假阳性）。为此，研究团队提出了一种基于EIRE的语义图过滤方法。 * 基准图构建：首先，从一个小规模的手动验证的正确文档集（D_cor） 中提取语义结构，为每个文档构建一个语义图（G_d）。图中节点为实体嵌入，边为EIRE提取出的实体间关系。 * 语义图相似度评估：对于待过滤的候选文档 *d*，同样使用EIRE构建其语义图 *G_d*。研究团队并未使用传统图相似度度量，而是巧妙地利用LLM自身的语义推理能力，通过设计专门的提示（prompt），让LLM对比候选文档的语义图 G_d 与基准语义图集 G_cor 在语义上的相似度，并输出一个介于0到1之间的评分 *ssg(d, d_cor)*。评分越高，表示候选文档的语义结构与可信文档越相似。通过案例分析（见原文图2）可知，正确的文档其语义图通常结构致密、逻辑连贯，而投毒文档的语义图则可能呈现稀疏、断裂或包含孤立、反常的连接。 * 语义过滤：将语义相似度评分 低于 预设阈值 τ_semantic 的文档过滤掉。 4. 联合过滤决策。为了在增强鲁棒性的同时最小化信息损失，SCF采用保守的“与”逻辑：只有同时被聚类过滤和语义过滤判定为可疑的文档，才会被最终移除。最终保留的文档集 D̃ = D’ \ (D_cluster ∩ D_semantic)。这种双通道机制确保了既能过滤掉多数恶意文档，又能保护潜在的有价值信息不被误删。
第二阶段：冲突感知过滤（Conflict-Aware Filtering, CAF） SCF模块之后，进入标准RAG流程：根据查询 q 从过滤后的库 D̃ 中检索出Top-K相关文档 *D_k(q)*。CAF模块作用于推理阶段，在生成最终答案前，对这些候选文档进行最后一轮精细的语义一致性审查。 1. 冲突检测维度：对于 D_k(q) 中的每一个候选文档 *d*，CAF再次利用EIRE提取其语义结构，并从三个维度评估其可信度： * 查询一致性（Query Consistency, Q）：文档的“意图”和“实体”是否与用户查询 q 在语义上对齐？ * 语料一致性（Corpus Consistency, C）：文档（基于其“关系”和上下文）是否与其他被检索到的文档 D_k(q) \ d 保持一致，有无矛盾？ * 模型一致性（Model Consistency, M）：文档中的关键“实体”及其陈述的事实，是否与LLM自身的内部知识兼容？ 2. LLM引导的决策：CAF通过设计特定的提示，引导LLM综合以上三个维度的EIRE语义信息，对每个候选文档做出判断：是可信的（Trustable）、投毒的（Poisoned）、冲突的（Conflicting）还是无关的（Irrelevant）。 3. 最终生成：仅将那些被标记为“可信”的文档 D̃_caf 与原始查询 q 一起，送入生成模型 *f*（即LLM）来产生最终答案 *a(q)*。这确保了生成模块基于的是一个语义连贯、查询相关且事实对齐的知识子集。
三、 主要实验结果
研究团队在三个开放的问答基准数据集（Natural Questions, HotpotQA, MS-MARCO）和五个不同规模和类型的LLM（Llama-3.1-8B, Mistral-12B, GPT-4o, DeepSeek-R1, Qwen-7B）上进行了广泛的实验，对比了SeCon-RAG与多个代表性基线方法（VanillaRAG, InstructRAG, AstuteRAG, TrustRAG）的性能。 1. 攻击场景：实验考虑了两种主要攻击——语料库投毒攻击（PoisonedRAG，设定20%和100%投毒率）和提示注入攻击（Prompt Injection Attack, PIA），以及无攻击的干净（Clean）场景。 2. 评估指标：使用准确率（Accuracy, Acc） 和攻击成功率（Attack Success Rate, ASR） 作为核心评价指标。 3. 关键结果： * 全面优越的鲁棒性：如表1所示，在几乎所有数据集、LLM和攻击设置下，SeCon-RAG在准确率和攻击成功率上均达到或超越了当前最佳基线方法（通常是TrustRAG）。例如，在GPT-4o上处理100%投毒的HotpotQA时，SeCon-RAG获得了83.6%的准确率和2.4%的ASR，优于TrustRAG的80.9%/2.7%。在低投毒率（20%）和PIA攻击下，SeCon-RAG也 consistently 展现出更优的稳健性。 * 不损害良性性能：在无攻击的干净设置下，SeCon-RAG的准确率不仅没有下降，反而在多数情况下高于基线方法，证明了其防御机制不会因为“过度防御”而损失有用的检索内容。例如，在MS-MARCO上使用DeepSeek-R1时，SeCon-RAG取得了94.0%的准确率。 * 消融研究验证模块有效性：针对Mistral-12B的消融实验（原文图3）表明，移除SCF或CAF中的任何一个模块都会导致性能显著下降，尤其是CAF的移除会引发ASR的大幅上升，这凸显了两个阶段协作的重要性。进一步的子模块消融也证实了聚类过滤与语义过滤、以及EIRE模块和验证正确文档集（*D_cor*）各自的价值。 * 实用性与泛化性：运行时分析（原文图4）显示SeCon-RAG引入了中等的计算开销（每批次1.21-1.45分钟），这是其进行多层语义分析和LLM调用所付出的代价，但考虑到其带来的显著鲁棒性提升，此开销在需要高可信度的实际应用中是可接受的。此外，实验还在不同嵌入模型（MiniLM, SimCSE, BERT, BGE）上验证了SeCon-RAG框架的有效性，表明其不依赖于特定的嵌入表示（表2）。阈值敏感性分析也表明框架对关键超参数（τ_cluster, *τ_semantic*）在一定范围内不敏感，利于实际部署。
四、 研究结论与价值
本研究成功提出并验证了SeCon-RAG，这是一个创新的、面向可信RAG系统的两阶段防御框架。其核心贡献在于： 1. 首次将结构化语义信息（通过EIRE模块）系统性地引入RAG防御，实现了从粗粒度向量匹配到细粒度语义理解的跨越，显著提升了投毒内容检测的精确度。 2. 提出了一个由SCF和CAF构成的层次化防御体系：SCF在检索前进行基于统计和语义的联合过滤，有效清除大量恶意文档；CAF在推理时进行基于语义一致性的最终审查，解决残留的冲突和误导。两者协同，在保持高信息保留率的同时，确保了最终输出的高度可信。 3. 通过大量实验证明了其卓越的有效性、鲁棒性和泛化能力：SeCon-RAG能够同时应对高/低投毒率攻击和提示注入攻击，在多种LLM和数据集上均能显著降低攻击成功率，同时维持甚至提升干净环境下的性能。
该研究的科学价值在于为RAG系统的安全可信研究开辟了新的方向，即利用语义理解和推理来构建更智能、更具分辨力的防御机制。其应用价值在于为实际部署的RAG系统提供了一个即插即用（plug-and-play）的、可解释的强鲁棒性解决方案，有助于抵御日益复杂的对抗性攻击，保障基于LLM的应用在金融、医疗、法律等高风险领域的可靠运行。
五、 研究亮点
方法论的创新性：提出了首个结合语义图分析与聚类分析进行联合过滤，并进一步引入多维度冲突感知推理的RAG防御框架，设计思路具有显著的原创性。
EIRE模块的核心作用：自主研发的EIRE模块是整个框架的“语义引擎”，它将非结构化的文本转化为结构化的（实体，意图，关系）三元组，为后续所有高级语义操作（如图相似度比较、一致性检查）提供了可计算、可解释的基础。
层次化与互补性设计：SCF与CAF的分工体现了“粗筛+精滤”的防御哲学。SCF快速削减攻击面，CAF确保最终输入的质量。这种设计有效平衡了防御强度与信息保留之间的权衡。
实验的充分性与说服力：研究在多达5种LLM、3个数据集、多种攻击类型和强度下进行了全面测试，并辅以细致的消融分析、敏感性分析和运行时评估，结论坚实可靠。
对“可信”的深入诠释：该研究不仅关注传统意义上的“鲁棒性”（抵抗攻击），更通过CAF模块强调了“一致性”和“事实性”，将RAG的防御目标提升到了“输出可信赖”的更高层次。
六、 其他补充
研究也坦诚地指出了当前框架的局限性，主要包括：由于多轮LLM调用（EIRE提取、语义图评分、CAF决策）带来的推理延迟；对EIRE语义提取质量的依赖；以及需要一个小规模的高质量验证文档集（*D_cor*）。这些为未来的优化指明了方向，例如探索更轻量化的语义提取模型、研究高效的图相似度近似算法等，以推动SeCon-RAG在延迟敏感的真实场景中更广泛的应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问