利用大型语言模型和知识图谱自动生成能力问题

分享自：
利用大型语言模型和知识图谱自动生成能力问题

期刊:CEUR Workshop Proceedings
学术研究报告：基于大语言模型与知识图谱的自动化能力问题生成方法
一、作者与发表信息本研究由Dario Di Nuzzo（伯明翰城市大学计算学院）、Edlira Vakaj（同单位）、Hadeel Saadany（同单位）、Eglantina Grishti（阿尔巴尼亚地拉那大学）及Nandana Mihindukulasooriya（IBM Research USA）共同完成。论文发表于NLP4KGC: 3rd International Workshop on Natural Language Processing for Knowledge Graph Creation（2024年9月17-19日，阿姆斯特丹），并获欧盟“Horizon Europe”计划（项目号101056973）资助。
二、研究背景与目标科学领域：本研究属于自然语言处理（NLP）与知识图谱（Knowledge Graph, KG）的交叉领域，聚焦于自动化生成能力问题（Competency Questions, CQs），应用于可持续建筑评估标准（如BREEAM）的 competency-based assessments。
研究动机：传统CQs设计依赖人工，存在效率低、扩展性差、难以适应知识快速更新的问题。本研究提出结合大语言模型（LLMs）与知识图谱的自动化方法，以提升CQs生成的相关性、清晰度与复杂性。
核心目标：
 1. 开发从BREEAM标准文档自动提取、结构化知识并构建KG的流程；
 2. 利用LLMs（如GPT-4o、Mistral）生成高质量CQs；
 3. 通过量化（余弦相似度）与定性（LLM-as-a-judge）评估验证方法的有效性。
三、研究方法与流程研究分为六个核心步骤，具体如下：
1. 文本提取与预处理数据来源：BREEAM标准技术手册的PDF文档。
 
工具与方法：使用PyPDF2库提取文本，分割为500词段落（重叠100词以保留上下文）。
 
关键创新：重叠分块策略确保后续实体识别与关系提取的连贯性。
 
2. 文本到图文档的转换技术栈：LangChain的LLM Graph Transformer与OpenAI的GPT-3.5-turbo模型。
 
流程：识别文本中的实体与关系，转化为节点与边的初步结构，形成图文档（Graph Documents）。
 
3. 知识图谱构建数据库：使用Neo4j存储KG，通过实体解析（Entity Resolution）合并相似实体（基于向量嵌入与相似度评分）。
 
社区检测：采用Leiden算法对KG进行聚类，揭示实体间的功能关联（如图2所示）。
 
4. 自然语言摘要生成模型：GPT-3.5-turbo为每个社区生成摘要，提升KG可解释性。
 
输出：摘要作为后续CQs生成的上下文基础。
 
5. 检索增强生成（RAG）检索阶段：
 实体聚焦检索：针对特定实体提取相关文本块（Cypher查询）；
 
社区聚焦检索：提取社区级摘要，提供全局上下文。
 
生成阶段：
 零样本（Zero-shot）与少样本（Few-shot）学习：引导LLMs生成问题；
 
思维链（Chain-of-Thought, CoT）与反射（Reflexion）技术：迭代优化问题质量（附录7-9）。
 
6. 实验与评估模型对比：测试专有模型（GPT-4、GPT-4o）与开源模型（Mistral 7B、Llama 3等）。
 
评估指标：
 定量：余弦相似度（基于text-embedding-ada-002嵌入）；
 
定性：LLM-as-a-judge评分（相关性、清晰度、深度，1-5分）。
 
四、主要结果模型性能：
GPT-4o在实体聚焦任务中表现最佳（零样本平均相关性0.8501）；
 
Mistral 7B在社区聚焦任务中领先（零样本平均相关性0.8759）。
 
少样本学习普遍优于零样本（如Mistral 7B社区聚焦分数从0.8759提升至0.8764）。
 
问题质量：
高分问题示例（表3）：
 *“如何通过数据分析优化废弃物收集与处置流程？”*（GPT-4o生成，相关性/清晰度/深度均5分）；
 
LLM-as-a-judge反馈显示问题兼具专业性与可操作性。
 
技术优势：
KG-LLM协同：KG提供结构化知识，LLMs增强语言生成能力；
 
自动化流程：减少人工干预，适应动态知识更新（如BREEAM标准修订）。
 
五、结论与价值科学价值：
 - 提出首个结合KG与LLMs的CQs自动化生成框架，为NLP4KG领域提供方法论创新；
 - 验证LLMs在专业领域（如可持续建筑）的适用性，突破传统NLP模型的局限性。
应用价值：
 - 为教育技术（如个性化学习评估）与行业标准（如BREEAM认证）提供可扩展的自动化工具；
 - 潜在扩展至医疗、法律等需高频更新知识的领域。
六、研究亮点方法创新：首次整合KG构建、RAG与CoT/Reflexion技术，实现端到端CQs生成；
 
模型泛化性：开源模型（Mistral 7B）性能媲美专有模型，降低应用成本；
 
评估严谨性：结合量化与定性指标，确保问题质量符合实际需求。
 
七、未来方向采用更先进摘要模型（如GPT-4）提升上下文质量；
 
扩展至多语言、多领域数据集验证鲁棒性；
 
优化计算资源消耗，提升KG-LLM集成的效率。
 
（报告字数：约2000字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问