分享自:

基于熵优化动态文本分割和RAG增强的大型语言模型在建筑工程知识库中的应用

期刊:appl. sci.DOI:10.3390/app15063134

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于熵优化动态文本分割与RAG增强大语言模型的建筑工程知识库构建研究

作者及机构
本研究由Haiyuan Wang(通讯作者)、Deli Zhang、Jianmin Li、Zelong Feng和Feng Zhang共同完成,所有作者均来自中国建筑科学研究院有限公司(CABR Testing Center Co., Ltd.)和中国建筑研究院有限公司(China Academy of Building Research Co., Ltd.)。研究成果发表于2025年3月的《Applied Sciences》期刊(Volume 15, Issue 6, 3134),采用CC BY 4.0开放获取许可。


学术背景
建筑工程领域的技术标准与规范(如GB/T和ISO系列)贯穿设计、施工、运维全生命周期,且需持续迭代更新。工程师亟需专业知识库辅助理解与更新标准。大语言模型(LLM, Large Language Model)与检索增强生成(RAG, Retrieval-Augmented Generation)技术的发展为垂直领域知识库构建提供了技术支持。然而,通用LLM在专业领域存在局限性:
1. 语义碎片化:传统静态文本分割(如固定长度分块)导致检索准确性下降;
2. 领域适配不足:通用模型缺乏对建筑工程标准术语和结构的针对性优化;
3. 资源效率问题:模型规模与计算成本呈指数级增长,需权衡精度与实用性。

本研究提出一种融合熵优化动态文本分割(EDTS, Entropy-Optimized Dynamic Text Segmentation)、向量相关性排序与提示工程迭代优化的RAG架构,旨在构建高效、精准的建筑工程知识库。


研究流程与方法
1. 知识库框架设计
- 构建阶段
- 数据收集:整合国家标准(如JGJ/T 23-2011《回弹法检测混凝土抗压强度技术规程》)、行业规范及国际标准,形成权威语料库。
- EDTS文本分割
- 以句子为核心单元,通过双向上下文窗口动态扩展;
- 基于条件熵最小化(公式3)确定分割边界,确保语义完整性与信息可预测性;
- 算法1实现自动化分块,解决传统方法(表2)的语义碎片化问题。
- 向量化与存储:采用Nomic-embed-text模型生成768维向量,存入FAISS向量数据库。

  • 应用阶段
    • 检索增强生成:用户查询经向量化后,通过余弦相似度(公式6)匹配Top-10相关文本块,整合至提示模板(图3-5);
    • 多版本更新策略:保留历史标准版本元数据,优先调用最新文本块。
  1. 实验验证
    • 测试集:101道专家验证的建筑工程标准问题,分为三类:
      • Type I(71.2%):可直接判断的数值型问题(如”检测区域最大面积”);
      • Type II(24.8%):描述型问题(如”检测区域定义”);
      • Type III(4.0%):混合型问题。
    • 评估方法
      • Type I:精确匹配(10分/0分制);
      • Type II:文本相似度评分;
      • Type III:50%数值匹配+50%语义相似度。
    • 对比实验
      • 文本分割方法:EDTS vs. 固定分块(FSC)、滑动窗口(SWC)等,Qwen2.5:7B模型下EDTS整体准确率达76%(图7);
      • 模型规模:测试1.5B至72B参数模型,揭示准确率与耗时正相关(图8-9),7B模型性价比最优。

主要结果
1. EDTS优势
- 在Type I/II问题中准确率提升至77%,较FSC-128提高12%;
- 通过熵优化(公式2-4)有效避免长文本的语义稀释,如标准条款的分割边界识别误差降低34%。

  1. 模型规模影响

    • 7B模型在Type III问题中达局部最优(F1=0.81),32B以上模型因过拟合反降5%准确率;
    • 72B模型响应耗时(8.7秒)为7B模型(1.2秒)的7.25倍,验证工程场景轻量化必要性。
  2. RAG增强效果

    • 相比直接提问LLM,RAG系统在Type I问题准确率从52%提升至89%;
    • 提示工程优化(如权重标记,图4)使关键文本块召回率提高28%。

结论与价值
1. 科学价值
- 提出EDTS方法,首次将信息熵理论应用于工程文本分割,为结构化知识检索提供新范式;
- 量化验证LLM规模与领域任务性能的非线性关系(图8),补充了垂直领域模型选择理论。

  1. 应用价值
    • 支持离线部署:轻量化7B模型+向量库可在施工手持设备运行;
    • 动态合规检查:集成至BIM软件实时比对设计规范,人工错误减少60%;
    • 多版本知识追溯:保留标准演进历史,辅助技术迭代分析。

研究亮点
1. 方法论创新:EDTS算法通过局部熵最小化实现自适应分割,代码已开源;
2. 工程适配性:提出”7B模型+Top-10检索”的性价比最优方案;
3. 跨领域潜力:框架可扩展至法律、医疗等专业文本密集型领域。

局限与展望
当前知识库覆盖标准有限,未来需纳入施工日志、检测报告等动态数据,并探索与知识图谱(Knowledge Graph)的联合优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com