这篇文档属于类型a,是一篇关于将领域特定知识与微调通用大语言模型相结合用于建设工程管理(Construction Engineering Management, CEM)问答系统的原创研究。以下是对该研究的学术报告:
作者及发表信息
本研究由Shenghua Zhou(东南大学中巴一带一路重大基础设施智慧防灾联合实验室;剑桥大学工程系)、Xuefan Liu、Dezhi Li(通讯作者)、Tiantian Gu(中国矿业大学力学与土木工程学院)、Keyan Liu、Yifan Yang(南京航空航天大学管理科学与工程系)、Mun On Wong(澳门大学土木与环境工程系)合作完成,发表于Automation in Construction期刊2025年第175卷,文章编号106206。
学术背景
研究领域:本研究属于智能问答(Question-Answering, QA)与建设工程管理(CEM)的交叉领域,聚焦于如何提升通用大语言模型(General-Purpose Large Language Models, GLLMs)在CEM专业问答中的性能。
研究动机:当前GLLMs(如GPT-4、Ernie等)在CEM问答中存在两大挑战:
1. 领域知识缺失:GLLMs缺乏动态更新的CEM专业知识(如法律法规、行业标准);
2. 微调数据不足:缺乏针对CEM任务的大规模高质量微调数据集。
研究目标:通过构建可更新的CEM外部知识库(CEM-EKB),结合领域外数据微调GLLMs,开发高性能的CEM问答系统(CEM-QA),并公开测试数据集以推动领域研究。
研究流程与方法
研究分为五个核心阶段(图1):
1. 构建CEM外部知识库(CEM-EKB)
- 知识框架设计:基于中国三本权威CEM教材(如东南大学出版社教材),由10名学术专家和5名行业专家共同制定7个二级子领域(如成本管理、进度控制)和40个三级子领域。
- 文档收集与处理:从教材和政府网站提取235份CEM相关文档(如《建设工程质量管理条例》),通过标题符号自动识别实体,人工去重后形成结构化知识库。文档覆盖所有子领域,并支持动态更新(如通过GitHub管理)。
- 图像处理:将339张文档内图像转换为文本描述(使用GPT-4-Vision),确保知识可被检索。
2. 领域外数据微调GLLMs
- 能力缺陷分析:通过200道CEM问题测试,发现GLLMs在多选题提示理解(MCQ Prompt Understanding)和数学计算(Mathematical Computation)能力不足。
- 数据集准备:
- 法律考试100道多选题(提升提示理解能力);
- 10,000道基础计算题(Blossom-Math-V2数据集,提升计算能力)。
- 微调方法:采用低秩自适应(Low-Rank Adaptation, LoRA)技术,冻结原始参数矩阵,注入低秩分解矩阵(公式1-4),通过梯度下降优化任务特定能力。
3. 集成CEM-EKB与微调GLLMs
- 检索增强生成(Retrieval-Augmented Generation, RAG):
- 知识向量化:将文档分块(每块250词,重叠50词),使用嵌入模型(如text-embedding-ada-002)生成向量并存储(Chroma/FAISS格式)。
- 知识检索:通过余弦相似度(公式5)匹配问题与知识块,返回Top 3相关文本。
- 答案生成:将问题、提示和检索知识组合为查询输入GLLMs。
4. 构建CEM-QA测试数据集
- 数据来源:
- 2825道题:来自2011–2023年中国注册建造师考试(RCQE)的单选题(SAMCQs)和多选题(MAMCQs);
- 2225道题:由12名专家设计,覆盖7个子领域。
- 标注特征:每道题标注来源、题型(计算/非计算)、所属子领域,形成5050道题的基准数据集(公开于Hugging Face)。
- 案例题(CBQs):额外收集100道基于实际工程的开放题,提供标准答案。
5. 性能对比与评估
- 评估指标:
- 正确率(Correctness Ratio, CR):单选题1分,多选题每正确选项0.5分(公式6-9);
- 提示理解准确率(Prompt Understanding Accuracy, PUA);
- 响应时间、答案可解释性(公式11)和上下文相关性(公式12)。
- 测试模型:9种GLLMs(如GPT-4、Ernie-Bot 4.0、Qwen-14b-chat等),对比原始模型、知识增强模型、知识增强+微调模型的性能。
主要结果
知识注入与微调显著提升性能:
- 在29套RCQE试题中,知识增强+微调的GLLMs平均正确率提升27.1%(图7),其中Baichuan2-7b-chat提升最大(37.6%)。
- 7个子领域测试显示平均提升27.5%,案例题(CBQs)提升22.05%(图11)。
能力专项改进:
- MCQ提示理解:微调后PUA最高提升7775%(如Ernie-Bot-Turbo从0.002升至0.125);
- 数学计算:正确率平均提升11.2%,但仍是薄弱环节(图10)。
可解释性与实用性:
- RAG生成的答案与知识库对齐度达0.626(MCQ)和0.713(CBQ),超过0.6的阈值(图13);
- 原型系统响应时间满足实际需求(MCQ平均1.756秒,CBQ平均24.213秒)。
结论与价值
科学价值:
1. 提出了一种可复用、可更新的CEM-EKB构建方法;
2. 验证了领域外数据微调GLLMs的可行性,为缺乏领域数据的研究提供新思路;
3. 公开了大规模CEM-QA测试集(5050题+100 CBQs),推动领域基准研究。
应用价值:
- 开发的CEM-QA原型系统(图15)支持知识动态更新,获行业用户好评(82.7%愿意持续使用);
- 在文档查询、合规检查等场景中评分达4.4/5分(图16)。
研究亮点
- 创新知识库构建:首次通过教材与专家协同构建覆盖全CEM子领域的知识库,支持动态更新;
- 领域外微调突破:利用法律和数学数据集解决CEM领域数据稀缺问题;
- 全面性能评估:涵盖多选题、计算题、案例题,提供多维度指标(CR、PUA、响应时间等);
- 开源贡献:公开知识库、测试数据集及原型代码(GitHub/Hugging Face)。
其他价值
- 揭示了GLLMs在专业领域应用的通用方法论(知识注入+能力导向微调);
- 为建筑、法律等垂直领域的AI问答系统开发提供参考。