分享自:

利用大型语言模型和知识图谱自动生成能力问题

期刊:CEUR Workshop Proceedings

学术研究报告:基于大语言模型与知识图谱的自动化能力问题生成方法


一、作者与发表信息

本研究由Dario Di Nuzzo(伯明翰城市大学计算学院)、Edlira Vakaj(同单位)、Hadeel Saadany(同单位)、Eglantina Grishti(阿尔巴尼亚地拉那大学)及Nandana Mihindukulasooriya(IBM Research USA)共同完成。论文发表于NLP4KGC: 3rd International Workshop on Natural Language Processing for Knowledge Graph Creation(2024年9月17-19日,阿姆斯特丹),并获欧盟“Horizon Europe”计划(项目号101056973)资助。


二、研究背景与目标

科学领域:本研究属于自然语言处理(NLP)与知识图谱(Knowledge Graph, KG)的交叉领域,聚焦于自动化生成能力问题(Competency Questions, CQs),应用于可持续建筑评估标准(如BREEAM)的 competency-based assessments。

研究动机:传统CQs设计依赖人工,存在效率低、扩展性差、难以适应知识快速更新的问题。本研究提出结合大语言模型(LLMs)与知识图谱的自动化方法,以提升CQs生成的相关性、清晰度与复杂性

核心目标
1. 开发从BREEAM标准文档自动提取、结构化知识并构建KG的流程;
2. 利用LLMs(如GPT-4o、Mistral)生成高质量CQs;
3. 通过量化(余弦相似度)与定性(LLM-as-a-judge)评估验证方法的有效性。


三、研究方法与流程

研究分为六个核心步骤,具体如下:

1. 文本提取与预处理

  • 数据来源:BREEAM标准技术手册的PDF文档。
  • 工具与方法:使用PyPDF2库提取文本,分割为500词段落(重叠100词以保留上下文)。
  • 关键创新:重叠分块策略确保后续实体识别与关系提取的连贯性。

2. 文本到图文档的转换

  • 技术栈:LangChain的LLM Graph Transformer与OpenAI的GPT-3.5-turbo模型。
  • 流程:识别文本中的实体与关系,转化为节点与边的初步结构,形成图文档(Graph Documents)。

3. 知识图谱构建

  • 数据库:使用Neo4j存储KG,通过实体解析(Entity Resolution)合并相似实体(基于向量嵌入与相似度评分)。
  • 社区检测:采用Leiden算法对KG进行聚类,揭示实体间的功能关联(如图2所示)。

4. 自然语言摘要生成

  • 模型:GPT-3.5-turbo为每个社区生成摘要,提升KG可解释性。
  • 输出:摘要作为后续CQs生成的上下文基础。

5. 检索增强生成(RAG)

  • 检索阶段
    • 实体聚焦检索:针对特定实体提取相关文本块(Cypher查询);
    • 社区聚焦检索:提取社区级摘要,提供全局上下文。
  • 生成阶段
    • 零样本(Zero-shot)与少样本(Few-shot)学习:引导LLMs生成问题;
    • 思维链(Chain-of-Thought, CoT)与反射(Reflexion)技术:迭代优化问题质量(附录7-9)。

6. 实验与评估

  • 模型对比:测试专有模型(GPT-4、GPT-4o)与开源模型(Mistral 7B、Llama 3等)。
  • 评估指标
    • 定量:余弦相似度(基于text-embedding-ada-002嵌入);
    • 定性:LLM-as-a-judge评分(相关性、清晰度、深度,1-5分)。

四、主要结果

  1. 模型性能

    • GPT-4o在实体聚焦任务中表现最佳(零样本平均相关性0.8501);
    • Mistral 7B在社区聚焦任务中领先(零样本平均相关性0.8759)。
    • 少样本学习普遍优于零样本(如Mistral 7B社区聚焦分数从0.8759提升至0.8764)。
  2. 问题质量

    • 高分问题示例(表3):
      *“如何通过数据分析优化废弃物收集与处置流程?”*(GPT-4o生成,相关性/清晰度/深度均5分);
    • LLM-as-a-judge反馈显示问题兼具专业性可操作性
  3. 技术优势

    • KG-LLM协同:KG提供结构化知识,LLMs增强语言生成能力;
    • 自动化流程:减少人工干预,适应动态知识更新(如BREEAM标准修订)。

五、结论与价值

科学价值
- 提出首个结合KG与LLMs的CQs自动化生成框架,为NLP4KG领域提供方法论创新;
- 验证LLMs在专业领域(如可持续建筑)的适用性,突破传统NLP模型的局限性。

应用价值
- 为教育技术(如个性化学习评估)与行业标准(如BREEAM认证)提供可扩展的自动化工具
- 潜在扩展至医疗、法律等需高频更新知识的领域。


六、研究亮点

  1. 方法创新:首次整合KG构建、RAG与CoT/Reflexion技术,实现端到端CQs生成;
  2. 模型泛化性:开源模型(Mistral 7B)性能媲美专有模型,降低应用成本;
  3. 评估严谨性:结合量化与定性指标,确保问题质量符合实际需求。

七、未来方向

  1. 采用更先进摘要模型(如GPT-4)提升上下文质量;
  2. 扩展至多语言、多领域数据集验证鲁棒性;
  3. 优化计算资源消耗,提升KG-LLM集成的效率。

(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com