论文《知识图谱引导的检索增强生成》学术研究报告
作者、机构与发表情况 本研究的核心作者为Xiangrong Zhu(南京大学)、Yuexiang Xie(阿里巴巴集团)、Yi Liu(南京大学)、Yaliang Li(阿里巴巴集团)以及Wei Hu(南京大学)。论文《Knowledge Graph-Guided Retrieval Augmented Generation》发表于计算语言学协会美洲分会2025年人类语言技术会议(Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1: Long Papers),收录于该会议论文集第8912-8924页,会议于2025年4月29日至5月4日举行。
研究的学术背景与目标 该研究隶属于自然语言处理(NLP)与人工智能领域,具体聚焦于提升大型语言模型(LLMs)实际应用效果的关键技术——检索增强生成(RAG, Retrieval-Augmented Generation)。LLMs虽在各种任务中取得了卓越成就,但其生成的回答常因包含过时信息或缺乏特定领域知识而产生“幻觉”(hallucinations)。RAG技术通过从外部知识源中检索相关信息并整合到LLM的提示中,为缓解幻觉问题提供了一个可行的解决方案。
然而,现有的RAG研究多集中于应用基于语义相似性的方法来检索孤立的、离散的文本块。这种方法存在明显局限:首先,检索到的文本块可能高度同质化且冗余,缺乏多样性;其次,这些文本块通常仅按其与查询的相似性得分简单拼接,忽略了它们之间内在的、事实层面的逻辑关联,从而无法充分激活LLMs的推理能力,限制了生成回答的全面性和可靠性。
针对上述挑战,本研究旨在探索如何将结构化知识(以知识图谱形式)与传统的语义检索相结合,以提升RAG系统的性能。知识图谱(KG, Knowledge Graph)作为现实世界实体及其关系的结构化抽象表示,能够以三元组(头实体,关系,尾实体)的形式捕捉事实级关联。受此启发,研究者提出了一个名为“知识图谱引导的检索增强生成”(KG2RAG)的新型框架。该框架的核心目标是:利用知识图谱提供的结构化事实知识,在基于语义的初始检索基础上,进行知识引导的文本块扩展和组织,从而获得更具多样性、内在连贯性且组织良好的检索结果,最终提升LLM生成回答的质量和检索过程的质量。
研究的方法与工作流程详述 KG2RAG框架的完整工作流程如图2所示,主要包含三个核心阶段:文档离线处理、知识图谱增强的块检索(包含两个子过程)、以及基于知识图谱的上下文组织。研究在广泛使用的HotpotQA数据集及其新构建的变体上进行了系统性实验。
第一阶段:文档离线处理(知识图谱-文本块关联构建) 1. 操作对象与样本规模:研究对象为整个文档集合。在HotpotQA-full设置中,该集合包含从维基百科提取的66,581个文档。所有文档被预先分割为N个文本块(chunk)。 2. 处理与构建方法:该阶段的核心是建立文本块与一个特定知识图谱之间的关联。本研究采用了一种不依赖现有知识图谱的方法:直接使用大型语言模型(本研究使用LLaMA-3)从每个文本块中提取实体和关系,以构建三元组。研究者设计了一个特定的提示模板(如图3所示),指导LLM直接从给定文本中提取信息性三元组,而不添加任何额外词汇。最终,从66,581个文档中提取出总计211,356个三元组,包含98,226个实体和19,813个关系,形成了一个覆盖整个文档集的知识图谱G。每个三元组都与其来源文本块c关联,即G = {(h, r, t, c) | c ∈ D}。这个过程是查询无关的,只需离线执行一次,并可支持对新文档的增量更新。图4展示的统计结果表明,从文档和块中提取的三元组数量分布呈现长尾现象。
第二阶段:知识图谱增强的块检索 此阶段在收到用户查询q后在线执行,包含两个顺序执行的子过程:基于语义的检索和图引导的扩展。 1. 基于语义的检索(提供种子块): * 方法与对象:首先,使用嵌入模型(本研究采用mxbai-embed-large)将用户查询q和所有文本块d∈D转换为高维向量表示,然后计算它们的余弦相似度s(q, c)。 * 操作:根据相似度得分排序,选择与查询最相似的前k个(默认k=10)文本块作为检索到的“种子块”集合D_q。这些种子块是后续扩展的基础。 2. 图引导的扩展(扩展检索范围): * 动机:仅依靠语义相似性可能遗漏与查询在语义上不直接相似,但通过共享或相关实体与种子块存在强事实关联的关键信息。 * 算法与流程: a. 构建相关子图:首先,从全局知识图谱G中,提取出所有与种子块D_q相关联的三元组,形成一个初始相关子图G_q^0。 b. 图遍历扩展:然后,以G_q^0中的实体为起点,在全局图G上执行广度优先搜索(BFS)算法,遍历其m跳(本研究默认m=1)邻域。此举旨在捕获与种子块通过实体网络相连的更多相关事实。 c. 获取扩展块:遍历完成后,得到一个扩展后的子图G_q^m。读取该子图中所有三元组所关联的源文本块,构成“扩展块”集合D_q^m。此过程确保了检索到的块虽然可能与原始查询语义相似度不高,但在事实层面上紧密相关,从而提高了检索结果的多样性和知识网络的全面性。
第三阶段:基于知识图谱的上下文组织 在获得扩展块集合D_q^m后,KG2RAG引入了一个后处理模块,该模块同时充当“过滤器”和“组织者”。 1. 作为过滤器: * 操作对象:扩展子图G_q^m及其关联的文本块。 * 处理方法: a. 加权图转换:将扩展子图G_q^m转换成一个无向加权图U_q^m。图中每条边(连接两个实体)的权重定义为包含该边对应三元组的源文本块与用户查询q的语义相似度(复用第二阶段计算的结果)。 b. 连通分量分解:由于知识的内在凝聚性,加权图U_q^m自然可被划分为p个连通分量B_i。 c. 生成最大生成树进行过滤:对每个连通分量B_i,生成其最大生成树(MST)T_i。这一步骤的关键在于,它保留了实体间最相关(权重最高)的连接关系,同时剔除了冗余边(例如,表达相同事实的多种表述),从而提升了最终提供给LLM的上下文信息的信息密度和简洁性。 2. 作为组织者: * 操作方法:对于每棵最大生成树T_i,生成两种表示:三元组表示和文本表示。 a. 三元组表示:将T_i中的所有边(即三元组)拼接起来,形成一个结构化的事实摘要。 b. 文本表示:选择T_i中权重最高的边作为根,然后使用深度优先搜索(DFS)算法,按照图的遍历顺序,将与该树中所有边相关联的文本块拼接成一个语义连贯的段落。这种组织方式使得最终输入LLM的上下文不再是杂乱无章的块列表,而是以知识图谱为骨架、内在逻辑清晰的叙述性段落。 * 最终排序与选择:使用交叉编码器重排序器(bge-reranker-large)计算每个最大生成树T_i的三元组表示与用户查询q的相关性得分r(q, T_i)。然后,根据相关性得分对T_i进行降序排序,并依次将其文本表示(即组织好的段落)加入最终提示中,直到满足预设的块数量上限(top-K约束)。这些精心筛选和组织后的段落,连同用户查询,被一起送入LLM(本研究使用LLaMA3-8B)进行最终的回答生成。
研究的主要结果 实验在HotpotQA数据集的两个设置(Distractor, Fullwiki)及其新构建的变体(Shuffle-HotpotQA)上进行,主要从回答质量和检索质量两个维度评估KG2RAG。
回答质量对比结果(表1):
检索质量对比结果(表2):
消融实验(表3,表4):
其他关键分析结果:
研究的结论与价值 本研究成功提出了一个名为KG2RAG的创新框架,该框架通过深度整合知识图谱,显著增强了传统检索增强生成(RAG)系统的性能。核心结论是:利用知识图谱提供的结构化事实关系,可以有效地对基于语义检索得到的“种子”文本块进行引导性扩展,并基于图谱结构对扩展后的内容进行智能过滤和组织,从而为大型语言模型提供多样性更佳、内在逻辑更连贯、组织更有序的上下文信息。这不仅显著提升了最终生成回答的质量(更准确、更可靠),也优化了检索过程本身的效能(更精准、更全面)。KG2RAG为解决LLM的幻觉问题、提升其在知识密集型任务中的表现,提供了一条有效且具有理论基础的技术路径。其代码和数据已开源,旨在促进知识图谱在RAG领域的进一步研究和应用。
研究的亮点 1. 方法新颖性:提出了首个将知识图谱同时用于“检索扩展”和“上下文组织”两个环节的端到端RAG框架。区别于仅用KG做简单检索或后处理的方法,KG2RAG利用KG的图结构进行系统性的知识发现与信息重组。 2. 性能卓越:在多个标准数据集及其变体上的实验表明,KG2RAG在回答质量和检索质量上均显著且稳定地超越了现有的主流RAG基线方法,尤其在文档库庞大或模型先验知识受限的困难场景下优势更为突出。 3. 设计精巧:框架中的“图引导扩展”和“基于KG的上下文组织”两个模块设计精妙,前者通过图遍历发现语义检索可能遗漏的相关事实,后者通过构建最大生成树进行去冗余和段落化重组,二者协同工作,缺一不可。消融实验有力证明了每个模块的独立贡献。 4. 实用性与鲁棒性强:框架支持离线构建知识图谱,在线检索效率高。实验证明其对关键超参数(k, m)不敏感,且对知识图谱本身的质量缺陷(如部分三元组缺失)具有良好的鲁棒性,这为其在实际复杂环境中的应用奠定了基础。 5. 开创性工作:为如何将非结构化的文本检索与结构化的知识图谱进行深度融合提供了一个清晰、可操作的范例,推动了RAG技术向更智能化、更结构化方向的发展。