分享自:

构建建筑法律知识库以增强通用大型语言模型在领域问答中的性能:以中国为例

期刊:Engineering, Construction and Architectural ManagementDOI:10.1108/ecam-06-2024-0701

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于建筑法律知识库增强通用大语言模型领域问答性能的研究:以中国为例

作者及机构
本研究由多位学者合作完成,包括Shenghua Zhou(东南大学中巴重大基础设施智能防灾一带一路联合实验室及剑桥大学工程学院)、Hongyu Wang(东南大学中巴联合实验室)、S. Thomas Ng(香港城市大学建筑与土木工程系)、Dezhi Li、Shenming Xie(东南大学中巴联合实验室)、Kaiwen Chen(阿拉巴马大学系统)和Wentao Wang(东南大学中巴联合实验室)。研究发表于期刊《Engineering, Construction and Architectural Management》,接受日期为2025年3月20日。

学术背景
建筑法律(Construction Laws, CLs)涵盖法规、判例和行业标准,对工程合同违约、安全事故处理等关键问题具有深远影响。然而,传统的建筑法律问答(CLQA)依赖基于学习的模型,需大量训练数据且覆盖范围有限。通用大语言模型(General-Purpose Large Language Models, GPLLMs)虽具备强大的语言理解能力,但缺乏领域专业知识。因此,本研究提出构建建筑法律知识库(Construction Law Knowledge Repository, CLKR),通过检索增强生成(Retrieval-Augmented Generation, RAG)技术提升GPLLMs在CLQA中的性能。

研究流程与方法
1. 候选文档识别
- 从374,992份中国裁判文书中筛选出702份候选法律文档,通过书名号识别文档名称实体,合并重复项后保留7,954项。
- 基于出现频率(≥5次)和法律文档命名规则(如以“条例”“标准”结尾)进一步过滤,最终保留702份候选文档。

  1. CLKR构建

    • 10位专家参与人工审核,通过多数表决剔除模糊或冗余文档(如“通知”“指导意见”),最终保留387份文档。
    • 建立“1-8-164”三级知识体系:1个根节点(建筑法律知识)、8个二级领域(如许可、合同、安全)、164个三级子领域,确保全面覆盖。
  2. GPLLMs与CLKR集成

    • 使用LangChain框架实现RAG技术:
      • 分块处理:将文档划分为250个token的片段,重叠50个token以保持上下文连续性。
      • 向量化:采用各GPLLM推荐的嵌入模型(如Ernie-Bot 4.0使用Ernie Embedding-v1)。
      • 检索:基于欧氏距离匹配问题与知识块,返回相似度最高的3个片段作为背景信息输入模型。
  3. 性能验证

    • 数据集:基于2014–2023年中国注册建造师资格考试(PCEQEs)构建2,140道题目(1,550道单选题、590道多选题),覆盖8个CL知识领域。
    • 测试7种GPLLMs(如GPT-4、Llama-2-70b)在集成CLKR前后的准确率差异,采用Wilcoxon t检验分析显著性。

主要结果
1. 性能提升
- CLKR使GPLLMs平均准确率提升21.1%,其中Text-Davinci-003增幅最高(44.9%),Ernie-Bot 4.0基线性能最优(准确率0.755→0.830)。
- 多选题(MMQs)提升幅度(38.3%)高于单选题(MSQs,14.9%),因CLKR提供了更全面的多答案依据。

  1. 领域覆盖性

    • 8个CL知识领域的准确率提升介于14.5%–28.2%,其中“施工许可”(C2)提升最大(28.2%),验证了CLKR的全面性。
  2. 长尾效应与文档贡献

    • 2.6%的高频文档(如《建设工程质量管理条例》《民法典》)贡献了37%的知识检索量,但210份低频文档仍对边缘问题解答至关重要。

结论与价值
1. 方法论创新
- 提出数据驱动与专家审核结合的CLKR构建范式,突破了传统学习模型对训练数据的依赖,扩展了CLQA的覆盖范围。
- 首次实证验证领域知识库对GPLLMs性能的增强作用,为其他专业领域(如医疗、金融)的问答系统开发提供参考。

  1. 应用价值
    • 为工程师提供低成本、高效的CLQA补充渠道,相比文献查阅和专家咨询更高效。
    • 开源CLKR和PCEQEs测试集(GitHub)可作为领域基准,推动CLQA研究的可重复性。

研究亮点
1. 跨语言性能提升:CLKR基于中文法律构建,但对英文训练的GPLLMs(如GPT-4)同样有效,显示其泛化能力。
2. 动态更新机制:研究设计了CLKR的文档更新接口,可适应法律条文的修订需求。
3. 场景化分析不足:模型在情景题(SBQs)的表现提升有限(仅4.6%),未来需补充案例库以增强推理能力。

其他发现
- 开放性问题测试:CLKR使GPLLMs在100道开放题中的平均准确率提升22%,但未达到考试及格线(0.6),反映生成式问答的潜在缺陷。
- 幻觉抑制:通过RAG和限定性提示词(如“仅基于提供知识回答”),有效减少了模型虚构答案的情况。


此报告全面涵盖了研究的背景、方法、结果与价值,尤其突出了数据驱动与专家审核协同的CLKR构建方法,以及其在多语言、多任务场景下的性能表现。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com