这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于建筑法律知识库增强通用大语言模型领域问答性能的研究:以中国为例
作者及机构
本研究由多位学者合作完成,包括Shenghua Zhou(东南大学中巴重大基础设施智能防灾一带一路联合实验室及剑桥大学工程学院)、Hongyu Wang(东南大学中巴联合实验室)、S. Thomas Ng(香港城市大学建筑与土木工程系)、Dezhi Li、Shenming Xie(东南大学中巴联合实验室)、Kaiwen Chen(阿拉巴马大学系统)和Wentao Wang(东南大学中巴联合实验室)。研究发表于期刊《Engineering, Construction and Architectural Management》,接受日期为2025年3月20日。
学术背景
建筑法律(Construction Laws, CLs)涵盖法规、判例和行业标准,对工程合同违约、安全事故处理等关键问题具有深远影响。然而,传统的建筑法律问答(CLQA)依赖基于学习的模型,需大量训练数据且覆盖范围有限。通用大语言模型(General-Purpose Large Language Models, GPLLMs)虽具备强大的语言理解能力,但缺乏领域专业知识。因此,本研究提出构建建筑法律知识库(Construction Law Knowledge Repository, CLKR),通过检索增强生成(Retrieval-Augmented Generation, RAG)技术提升GPLLMs在CLQA中的性能。
研究流程与方法
1. 候选文档识别
- 从374,992份中国裁判文书中筛选出702份候选法律文档,通过书名号识别文档名称实体,合并重复项后保留7,954项。
- 基于出现频率(≥5次)和法律文档命名规则(如以“条例”“标准”结尾)进一步过滤,最终保留702份候选文档。
CLKR构建
GPLLMs与CLKR集成
性能验证
主要结果
1. 性能提升
- CLKR使GPLLMs平均准确率提升21.1%,其中Text-Davinci-003增幅最高(44.9%),Ernie-Bot 4.0基线性能最优(准确率0.755→0.830)。
- 多选题(MMQs)提升幅度(38.3%)高于单选题(MSQs,14.9%),因CLKR提供了更全面的多答案依据。
领域覆盖性
长尾效应与文档贡献
结论与价值
1. 方法论创新
- 提出数据驱动与专家审核结合的CLKR构建范式,突破了传统学习模型对训练数据的依赖,扩展了CLQA的覆盖范围。
- 首次实证验证领域知识库对GPLLMs性能的增强作用,为其他专业领域(如医疗、金融)的问答系统开发提供参考。
研究亮点
1. 跨语言性能提升:CLKR基于中文法律构建,但对英文训练的GPLLMs(如GPT-4)同样有效,显示其泛化能力。
2. 动态更新机制:研究设计了CLKR的文档更新接口,可适应法律条文的修订需求。
3. 场景化分析不足:模型在情景题(SBQs)的表现提升有限(仅4.6%),未来需补充案例库以增强推理能力。
其他发现
- 开放性问题测试:CLKR使GPLLMs在100道开放题中的平均准确率提升22%,但未达到考试及格线(0.6),反映生成式问答的潜在缺陷。
- 幻觉抑制:通过RAG和限定性提示词(如“仅基于提供知识回答”),有效减少了模型虚构答案的情况。
此报告全面涵盖了研究的背景、方法、结果与价值,尤其突出了数据驱动与专家审核协同的CLKR构建方法,以及其在多语言、多任务场景下的性能表现。