本文介绍了一项由Shenghua Zhou、Xuefan Liu、Dezhi Li、Tiantian Gu、Keyan Liu、Yifan Yang和Mun On Wong等作者共同完成的研究,该研究发表于2025年的《Automation in Construction》期刊上。研究的核心目标是解决通用大语言模型(General-Purpose Large Language Models, GLLMs)在建筑工程管理(Construction Engineering Management, CEM)领域问答(Question-Answering, QA)中的两大挑战:CEM领域知识的缺失和缺乏用于微调的数据集。通过将CEM外部知识库(CEM-External Knowledge Base, CEM-EKB)与经过微调的GLLMs结合,研究团队提出了一种新的CEM-QA方法,显著提升了GLLMs在专业考试中的表现。
建筑工程管理(CEM)涵盖了广泛的领域,如进度、成本、质量和组织等。在面对CEM相关问题时,专业人士通常依赖搜索引擎或咨询专家来获取答案。然而,这两种方式都存在显著的缺陷,如搜索引擎无法提供直接答案,而咨询专家的成本较高。因此,智能CEM-QA成为学术界和工业界共同追求的目标。然而,现有的GLLMs在CEM-QA中的表现并不理想,主要原因在于它们缺乏CEM领域的专业知识,且缺乏用于微调的CEM-QA数据集。为此,本研究旨在通过构建CEM-EKB并结合跨领域微调的GLLMs,提升CEM-QA的性能。
研究的主要流程包括五个阶段: 1. 构建CEM-EKB:首先,研究团队通过总结三本广泛使用的CEM教材,构建了CEM知识框架,涵盖了7个二级子领域和40个三级子领域。接着,从政府网站等渠道收集了235份CEM相关文档,并将其分类到不同的子领域中。最终,CEM-EKB被发布在GitHub上,供研究人员使用。 2. 跨领域微调GLLMs:由于缺乏CEM-QA数据集,研究团队通过跨领域微调来提升GLLMs在CEM-QA任务中的能力。具体来说,团队通过分析GLLMs在早期试验中的表现,确定了它们在多选题提示理解和数学计算能力方面的不足。为此,团队从法律考试中收集了100道多选题,并从Hugging Face平台获取了10,000道基础计算题,用于微调GLLMs。 3. 将CEM-EKB与微调后的GLLMs结合:研究团队采用了检索增强生成(Retrieval-Augmented Generation, RAG)技术,将CEM-EKB与GLLMs结合。具体来说,团队将CEM文档分割为文本块,并通过嵌入模型将其向量化。然后,通过余弦相似度检索与问题相关的知识,并将其与问题一起输入GLLMs生成答案。 4. 构建CEM-QA测试数据集:研究团队构建了一个包含5050道多选题和100道案例题的CEM-QA测试数据集。其中,2825道题来自注册建造师资格考试(RCQE),2225道题由专家设计。所有问题都被手动标注了三个特征:来源、类型和所属子领域。 5. 比较GLLMs的表现:研究团队比较了原始GLLMs、知识增强的GLLMs和知识增强且微调的GLLMs在CEM-QA测试数据集上的表现。结果显示,知识增强且微调的GLLMs在专业考试中的平均表现比原始GLLMs提高了27.1%,在7个CEM子领域中的平均提升为27.5%,在案例题中的提升为22.05%。
研究的主要结果包括: 1. 在RCQE试卷上的表现:知识增强且微调的GLLMs在29份RCQE试卷上的平均表现比原始GLLMs提高了27.1%。其中,知识增强的GLLMs平均提升了16.8%,而微调进一步提升了6.6%到16.5%。 2. 在CEM子领域中的表现:在7个CEM子领域中,知识增强且微调的GLLMs的平均表现比原始GLLMs提高了27.5%。知识增强的GLLMs平均提升了17.4%,而微调进一步提升了9.6%到16.7%。 3. 在单选题和多选题中的表现:知识增强且微调的GLLMs在单选题中的平均表现比原始GLLMs提高了20.5%,而在多选题中的提升为54.1%。 4. 在提示理解和数学计算能力上的提升:微调显著提升了GLLMs在多选题提示理解和数学计算能力上的表现。其中,提示理解能力的提升幅度在2.0%到21.1%之间,平均为11.2%。
本研究通过构建CEM-EKB并结合跨领域微调的GLLMs,显著提升了GLLMs在CEM-QA任务中的表现。研究的主要贡献包括: 1. 提出了一个有效、可重用和可更新的CEM-EKB:通过结合教材和专家知识,研究团队构建了一个覆盖多个CEM子领域的知识库,并展示了如何开发用于RAG的CEM-EKB。 2. 验证了跨领域微调的可行性:研究团队展示了在没有领域内数据集的情况下,如何通过跨领域数据集微调GLLMs,从而提升其在CEM-QA任务中的表现。 3. 提供了一个大规模的CEM-QA测试数据集:研究团队构建了一个包含5050道多选题和100道案例题的CEM-QA测试数据集,并将其公开发布,为未来的CEM-QA研究提供了基准。
本研究的亮点包括: 1. 创新性地结合了CEM-EKB和跨领域微调的GLLMs:通过RAG技术和跨领域微调,研究团队显著提升了GLLMs在CEM-QA任务中的表现。 2. 提供了可重用和可更新的CEM-EKB:CEM-EKB的构建过程和更新机制为其他领域的知识库开发提供了参考。 3. 公开了大规模的CEM-QA测试数据集:研究团队发布的CEM-QA测试数据集为学术界和工业界提供了一个标准化的评估工具。
本研究为CEM-QA领域提供了重要的理论和方法支持,展示了GLLMs在专业领域问答中的潜力,并为未来的研究奠定了基础。