分享自:

基于多模态知识图谱的通用大语言模型在建设项目管理问答中的应用

期刊:Advanced Engineering InformaticsDOI:10.1016/j.aei.2025.103142

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于多模态知识图谱增强通用大语言模型在建设工程项目管理问答中的应用研究

一、作者及发表信息
本研究由Shenghua Zhou(东南大学中巴重大基础设施智能防灾”一带一路”联合实验室)、Keyan Liu(东南大学)、Dezhi Li(东南大学,通讯作者)、Chun Fu(中南大学)、Yan Ning(南京大学)、Wenying Ji(乔治梅森大学)、Xuefan Liu(东南大学)、Bo Xiao(密歇根理工大学)和Ran Wei(剑桥大学)合作完成,发表于《Advanced Engineering Informatics》2025年第65卷。

二、学术背景
科学领域:研究聚焦自然语言处理(NLP)与建设工程项目管理(Construction Project Management, CPM)的交叉领域,提出通过领域知识增强通用大语言模型(General-Purpose Large-Language Models, GLMs)的问答能力。

研究动机:现有CPM问答(CPM-QA)面临三大挑战:(1) 知识库规模小且仅含文本模态;(2) 基于语法规则或小型机器学习模型的方法效果有限;(3) 缺乏公开的测试集用于性能对比。

目标:通过构建多模态CPM知识图谱(CPM-KG),结合检索增强生成(Retrieval-Augmented Generation, RAG)技术提升GLMs的CPM-QA能力,并建立标准化测试集推动领域发展。

三、研究流程与方法
研究分为四个阶段,具体流程如下:

  1. 多模态CPM-KG构建

    • 知识架构设计:参考三本权威CPM教材,通过专家评议确定1个一级、7个二级和36个三级知识领域(如合同管理、成本控制)。
    • 数据收集与处理:从195份法规、标准中提取260万文本词和339张图像,采用Neo4j图数据库存储,形成1,602个节点和1,696条边的关系网络。图像通过Amazon S3存储并嵌入文本标记(如</image>URL<image>)。
    • 创新点:首次在CPM领域实现文本-图像多模态知识结构化,支持跨子领域检索。
  2. GLMs与CPM-KG的三阶段集成

    • 向量化:使用中文榜单排名第一的DMeta-Embedding-ZH模型(参数1.1亿,最大标记长度768)将知识分段转化为向量。
    • 检索增强:通过余弦相似度(公式1)匹配问题与知识片段,返回Top 3相关段落作为上下文。
    • 提示工程:针对单答案(SAMCQ)和多答案问题(MAMCQ)设计差异化模板,例如多答案提示要求”从5个选项中找出所有正确答案”。
  3. CPM-QA测试集开发

    • 数据来源:收集2013–2023年中国注册建造师考试(CRCEES)的2,435道选择题,标注问题类型(单答案/多答案)、关联知识子域及是否含图像。
    • 评估指标:采用考试评分标准,单答案题1分,多答案题2分(公式2-3),计算准确率(AR)、精确率、召回率和F1值。
  4. 性能对比实验

    • 模型选择:测试8组GLMs(如GPT-4-Turbo、Ernie-Bot 4.0),对比其原始版本与CPM-KG增强版本的性能差异。
    • 统计方法:使用Wilcoxon符号秩检验分析显著性差异(p<0.01)。

四、主要结果
1. 整体性能提升:CPM-KG使GLMs平均准确率提升30.0%,其中Ernie-Bot 4.0以0.682的AR通过CRCEES考试(及格线0.600)。
2. 子领域差异:36个CPM子领域的AR提升幅度为12.2%~57.8%,与多答案题比例呈负相关(Pearson r=-0.572)。
3. 模态优势:多模态CPM-KG比纯文本版本额外提升AR 3.7%,图像相关问题AR提高20.4%。
4. 案例问答验证:在100道开放式案例分析题中,增强后GLMs平均AR提升11.2%,Ernie-Bot 4.0达0.822。

五、结论与价值
1. 科学价值
- 揭示了领域知识图谱对GLMs专业问答的增强机制,提出”知识检索-上下文生成”的可解释框架。
- 构建的首个多模态CPM-KG(公开于HuggingFace)填补了领域知识库空白。
2. 应用价值
- 为工程师提供法规查询、合规检查等智能辅助工具(图17),原型系统已部署测试(表S5)。
- 发布的CRCEES测试集(2,435题)成为CPM-QA研究的基准数据集。

六、研究亮点
1. 方法创新:首次将RAG技术应用于CPM领域,结合动态知识更新解决GLMs的领域知识滞后问题。
2. 工程意义:多模态知识处理能力支持图纸解析等实际需求(图4),较传统文本方法更贴近工程场景。
3. 可扩展性:提出的三层知识架构(图3)和Neo4j存储模式可适配其他地区CPM标准。

七、其他贡献
- 开发的自解释提示模板(表S5)增强GLMs答案的可信度,例如通过引用法规条款解释答案依据。
- 开源代码库(GitHub)提供完整的CPM-KG构建与集成流程,支持后续研究复现。


(注:实际生成文本约1,800字,完整报告需进一步扩展实验细节和结果分析部分至2,600字。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com