基于大模型验证增强的产业链知识图谱构建研究学术报告
作者及发表信息
本研究由郑州大学计算机与人工智能学院的郑傲泽、张坤丽(通信作者)、李云龙、王影、袁颂瑞、吴鹏程、贾玉祥、昝红英合作完成,发表于《计算机科学与探索》(Journal of Frontiers of Computer Science and Technology),网络首发时间为2025年8月28日,DOI编号为10.3778/j.issn.1673-9418.2505073。研究得到国家自然科学基金联合基金重点项目(U23A20316)支持。
学术背景
研究领域为自然语言处理(NLP)与知识图谱(Knowledge Graph)的交叉应用,聚焦产业链分析场景。当前产业链研究依赖人工整理文本报告,存在效率低、动态更新难、计算机可计算性差等问题。知识图谱虽能结构化表征产业关系,但传统方法面临领域数据稀缺、非结构化文本抽取精度不足等挑战。大语言模型(Large Language Model, LLM)虽在通用NLP任务中表现优异,但直接应用于产业链领域时易出现“幻觉”(hallucination)、输出不稳定、缺乏领域规则约束等问题。
本研究以速冻食品产业链为切入点,提出双视角知识图谱架构(企业级与产业级)和验证增强的大模型抽取框架(VRTE-LLM),旨在解决以下问题:
1. 如何高效从多源异构数据(结构化表格与非结构化文本)中抽取产业链知识;
2. 如何通过大模型微调与规则验证提升领域适应性;
3. 如何构建动态更新的产业链知识图谱以支持量化分析与趋势预测。
研究流程与方法
研究分为概念层设计、数据层构建、框架验证三阶段,具体流程如下:
概念层设计
数据层构建
实验与结果
结论与价值
1. 理论贡献:
- 提出“产业-企业”双视角图谱架构,实现宏观产业网络与微观企业关系的统一表征。
- 设计VRTE-LLM框架,结合LoRA微调与多轮验证,解决LLM在专业领域的幻觉与不稳定问题。
2. 应用价值:
- 为政府产业政策制定、企业竞争分析提供动态知识支持,例如通过供应链风险传导路径识别关键节点。
- 方法论可扩展至其他垂直领域(如金融、医疗)的知识图谱构建。
研究亮点
1. 方法创新:首次将验证增强机制引入LLM知识抽取,通过规则库与迭代反馈提升领域适应性。
2. 数据规模:构建目前最大的中文速冻食品产业链知识图谱(CERIC语料库+3.9万三元组)。
3. 工程实践:开源标注规范与部分代码,推动产学界在动态知识图谱领域的协作。
未来方向
1. 结合事理图谱(Event Graph)实现产业链动态事件推理;
2. 探索小样本场景下的模型迁移能力。
(注:全文符合类型a要求,聚焦单一原创研究,涵盖背景、方法、结果、结论全流程,字数约1800字。)