分享自:

基于大模型验证增强的产业链知识图谱构建研究

期刊:计算机科学与探索DOI:10.3778/j.issn.1673-9418.2505073

基于大模型验证增强的产业链知识图谱构建研究学术报告

作者及发表信息
本研究由郑州大学计算机与人工智能学院的郑傲泽、张坤丽(通信作者)、李云龙、王影、袁颂瑞、吴鹏程、贾玉祥、昝红英合作完成,发表于《计算机科学与探索》(Journal of Frontiers of Computer Science and Technology),网络首发时间为2025年8月28日,DOI编号为10.3778/j.issn.1673-9418.2505073。研究得到国家自然科学基金联合基金重点项目(U23A20316)支持。

学术背景
研究领域为自然语言处理(NLP)与知识图谱(Knowledge Graph)的交叉应用,聚焦产业链分析场景。当前产业链研究依赖人工整理文本报告,存在效率低、动态更新难、计算机可计算性差等问题。知识图谱虽能结构化表征产业关系,但传统方法面临领域数据稀缺、非结构化文本抽取精度不足等挑战。大语言模型(Large Language Model, LLM)虽在通用NLP任务中表现优异,但直接应用于产业链领域时易出现“幻觉”(hallucination)、输出不稳定、缺乏领域规则约束等问题。

本研究以速冻食品产业链为切入点,提出双视角知识图谱架构(企业级与产业级)和验证增强的大模型抽取框架(VRTE-LLM),旨在解决以下问题:
1. 如何高效从多源异构数据(结构化表格与非结构化文本)中抽取产业链知识;
2. 如何通过大模型微调与规则验证提升领域适应性;
3. 如何构建动态更新的产业链知识图谱以支持量化分析与趋势预测。

研究流程与方法
研究分为概念层设计、数据层构建、框架验证三阶段,具体流程如下:

  1. 概念层设计

    • 数据来源:基于《国民经济行业分类》等官方文件定义产业术语,调研河南省速冻食品产业链,划分上游(农牧渔业)、中游(食品加工)、下游(冷链物流与零售)三大环节。
    • 双视角架构
      • 企业级图谱:以企业为节点,包含“企业-产品”“企业-竞争”等38种子关系,覆盖企业属性(如财务、风险)与关联(如供应、投资)。
      • 产业级图谱:以产业为节点,通过企业归属关系映射产业间关联,形成宏观产业链网络。
    • Schema定义:设计6类核心实体(企业、产品、事件等)和11类主关系,经领域专家评估后形成标注规范。
  2. 数据层构建

    • 数据采集
      • 结构化数据:来自天眼查、企查查的企业表格数据(163份企业信息、86份财务数据)。
      • 非结构化数据:企业年报(64份)、招投标文件(267份)、新闻文本(8630条)等,总计47万字。
    • 预处理:去重、补全缺失实体、正则过滤广告文本。
    • 结构化数据处理
      • 采用LLM指令微调,将表格转换为三元组,构建产业链标注语料库(CERIC)。提示模板注入领域规范,例如:“<三全食品(公司名称)-属于-速冻食品行业(行业)>”。
    • 非结构化数据处理
      • 提出VRTE-LLM框架,包含四步:
      1. LoRA微调:基于CERIC语料库,对Qwen2.5/DeepSeek-R1模型进行低秩适配(Low-Rank Adaptation),仅训练16维参数矩阵,降低计算成本(公式1:𝑊′ = 𝑊 + 𝐴𝐵)。
      2. 初步验证:通过LLM修正三元组的完整性错误(如缺失实体)和偏差错误(如关系类型不符标注规范),提示模板如公式2:𝑃𝑟𝑜𝑚𝑝𝑡 = 𝑇𝑡𝑎𝑠𝑘[𝑆𝐸𝑃]𝑐𝑖[𝑆𝐸𝑃]𝑅𝑢。
      3. 规则验证:动态加载预定义规则库(如“企业-供应关系需指向具体产品”),筛选合法三元组(公式4:𝑅𝐿𝑖 = ∑𝑅𝑈𝐿𝐸(𝑡𝑖𝑗)∙𝑟)。
      4. 一致性校验:通过3轮迭代反馈消除LLM输出不稳定问题。
  3. 实验与结果

    • 对比实验:VRTE-LLM在实体识别(F1=80.9%)和关系抽取(F1=83.9%)任务中显著优于基线模型(CASREL、UIE、ChatGPT-4),统计显著性p<0.01。
    • 消融实验:验证增强三阶段(偏差修正、事实验证、一致性校验)分别贡献F1提升6.5%、11.9%、9.1%。
    • 产业环节差异:中游食品加工数据表现最佳(F1=85.9%),下游零售文本因广告干扰效果稍弱(F1=82.2%)。
    • 图谱构建结果:最终知识图谱包含39,627个三元组,覆盖70余家企业、四大产业领域,通过Neo4j实现可视化查询(如图5展示产业级供应网络)。

结论与价值
1. 理论贡献
- 提出“产业-企业”双视角图谱架构,实现宏观产业网络与微观企业关系的统一表征。
- 设计VRTE-LLM框架,结合LoRA微调与多轮验证,解决LLM在专业领域的幻觉与不稳定问题。
2. 应用价值
- 为政府产业政策制定、企业竞争分析提供动态知识支持,例如通过供应链风险传导路径识别关键节点。
- 方法论可扩展至其他垂直领域(如金融、医疗)的知识图谱构建。

研究亮点
1. 方法创新:首次将验证增强机制引入LLM知识抽取,通过规则库与迭代反馈提升领域适应性。
2. 数据规模:构建目前最大的中文速冻食品产业链知识图谱(CERIC语料库+3.9万三元组)。
3. 工程实践:开源标注规范与部分代码,推动产学界在动态知识图谱领域的协作。

未来方向
1. 结合事理图谱(Event Graph)实现产业链动态事件推理;
2. 探索小样本场景下的模型迁移能力。

(注:全文符合类型a要求,聚焦单一原创研究,涵盖背景、方法、结果、结论全流程,字数约1800字。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com