学术研究报告:基于大语言模型与知识图谱的自动化能力问题生成方法
一、作者与发表信息
本研究由Dario Di Nuzzo(伯明翰城市大学计算学院)、Edlira Vakaj(同单位)、Hadeel Saadany(同单位)、Eglantina Grishti(阿尔巴尼亚地拉那大学)及Nandana Mihindukulasooriya(IBM Research USA)共同完成。论文发表于NLP4KGC: 3rd International Workshop on Natural Language Processing for Knowledge Graph Creation(2024年9月17-19日,阿姆斯特丹),并获欧盟“Horizon Europe”计划(项目号101056973)资助。
二、研究背景与目标
科学领域:本研究属于自然语言处理(NLP)与知识图谱(Knowledge Graph, KG)的交叉领域,聚焦于自动化生成能力问题(Competency Questions, CQs),应用于可持续建筑评估标准(如BREEAM)的 competency-based assessments。
研究动机:传统CQs设计依赖人工,存在效率低、扩展性差、难以适应知识快速更新的问题。本研究提出结合大语言模型(LLMs)与知识图谱的自动化方法,以提升CQs生成的相关性、清晰度与复杂性。
核心目标:
1. 开发从BREEAM标准文档自动提取、结构化知识并构建KG的流程;
2. 利用LLMs(如GPT-4o、Mistral)生成高质量CQs;
3. 通过量化(余弦相似度)与定性(LLM-as-a-judge)评估验证方法的有效性。
三、研究方法与流程
研究分为六个核心步骤,具体如下:
1. 文本提取与预处理
- 数据来源:BREEAM标准技术手册的PDF文档。
- 工具与方法:使用
PyPDF2库提取文本,分割为500词段落(重叠100词以保留上下文)。
- 关键创新:重叠分块策略确保后续实体识别与关系提取的连贯性。
2. 文本到图文档的转换
- 技术栈:LangChain的LLM Graph Transformer与OpenAI的GPT-3.5-turbo模型。
- 流程:识别文本中的实体与关系,转化为节点与边的初步结构,形成图文档(Graph Documents)。
3. 知识图谱构建
- 数据库:使用Neo4j存储KG,通过实体解析(Entity Resolution)合并相似实体(基于向量嵌入与相似度评分)。
- 社区检测:采用Leiden算法对KG进行聚类,揭示实体间的功能关联(如图2所示)。
4. 自然语言摘要生成
- 模型:GPT-3.5-turbo为每个社区生成摘要,提升KG可解释性。
- 输出:摘要作为后续CQs生成的上下文基础。
5. 检索增强生成(RAG)
- 检索阶段:
- 实体聚焦检索:针对特定实体提取相关文本块(Cypher查询);
- 社区聚焦检索:提取社区级摘要,提供全局上下文。
- 生成阶段:
- 零样本(Zero-shot)与少样本(Few-shot)学习:引导LLMs生成问题;
- 思维链(Chain-of-Thought, CoT)与反射(Reflexion)技术:迭代优化问题质量(附录7-9)。
6. 实验与评估
- 模型对比:测试专有模型(GPT-4、GPT-4o)与开源模型(Mistral 7B、Llama 3等)。
- 评估指标:
- 定量:余弦相似度(基于text-embedding-ada-002嵌入);
- 定性:LLM-as-a-judge评分(相关性、清晰度、深度,1-5分)。
四、主要结果
模型性能:
- GPT-4o在实体聚焦任务中表现最佳(零样本平均相关性0.8501);
- Mistral 7B在社区聚焦任务中领先(零样本平均相关性0.8759)。
- 少样本学习普遍优于零样本(如Mistral 7B社区聚焦分数从0.8759提升至0.8764)。
问题质量:
- 高分问题示例(表3):
*“如何通过数据分析优化废弃物收集与处置流程?”*(GPT-4o生成,相关性/清晰度/深度均5分);
- LLM-as-a-judge反馈显示问题兼具专业性与可操作性。
技术优势:
- KG-LLM协同:KG提供结构化知识,LLMs增强语言生成能力;
- 自动化流程:减少人工干预,适应动态知识更新(如BREEAM标准修订)。
五、结论与价值
科学价值:
- 提出首个结合KG与LLMs的CQs自动化生成框架,为NLP4KG领域提供方法论创新;
- 验证LLMs在专业领域(如可持续建筑)的适用性,突破传统NLP模型的局限性。
应用价值:
- 为教育技术(如个性化学习评估)与行业标准(如BREEAM认证)提供可扩展的自动化工具;
- 潜在扩展至医疗、法律等需高频更新知识的领域。
六、研究亮点
- 方法创新:首次整合KG构建、RAG与CoT/Reflexion技术,实现端到端CQs生成;
- 模型泛化性:开源模型(Mistral 7B)性能媲美专有模型,降低应用成本;
- 评估严谨性:结合量化与定性指标,确保问题质量符合实际需求。
七、未来方向
- 采用更先进摘要模型(如GPT-4)提升上下文质量;
- 扩展至多语言、多领域数据集验证鲁棒性;
- 优化计算资源消耗,提升KG-LLM集成的效率。
(报告字数:约2000字)