本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于熵优化动态文本分割与RAG增强大语言模型的建筑工程知识库构建研究
作者及机构
本研究由Haiyuan Wang(通讯作者)、Deli Zhang、Jianmin Li、Zelong Feng和Feng Zhang共同完成,所有作者均来自中国建筑科学研究院有限公司(CABR Testing Center Co., Ltd.)和中国建筑研究院有限公司(China Academy of Building Research Co., Ltd.)。研究成果发表于2025年3月的《Applied Sciences》期刊(Volume 15, Issue 6, 3134),采用CC BY 4.0开放获取许可。
学术背景
建筑工程领域的技术标准与规范(如GB/T和ISO系列)贯穿设计、施工、运维全生命周期,且需持续迭代更新。工程师亟需专业知识库辅助理解与更新标准。大语言模型(LLM, Large Language Model)与检索增强生成(RAG, Retrieval-Augmented Generation)技术的发展为垂直领域知识库构建提供了技术支持。然而,通用LLM在专业领域存在局限性:
1. 语义碎片化:传统静态文本分割(如固定长度分块)导致检索准确性下降;
2. 领域适配不足:通用模型缺乏对建筑工程标准术语和结构的针对性优化;
3. 资源效率问题:模型规模与计算成本呈指数级增长,需权衡精度与实用性。
本研究提出一种融合熵优化动态文本分割(EDTS, Entropy-Optimized Dynamic Text Segmentation)、向量相关性排序与提示工程迭代优化的RAG架构,旨在构建高效、精准的建筑工程知识库。
研究流程与方法
1. 知识库框架设计
- 构建阶段:
- 数据收集:整合国家标准(如JGJ/T 23-2011《回弹法检测混凝土抗压强度技术规程》)、行业规范及国际标准,形成权威语料库。
- EDTS文本分割:
- 以句子为核心单元,通过双向上下文窗口动态扩展;
- 基于条件熵最小化(公式3)确定分割边界,确保语义完整性与信息可预测性;
- 算法1实现自动化分块,解决传统方法(表2)的语义碎片化问题。
- 向量化与存储:采用Nomic-embed-text模型生成768维向量,存入FAISS向量数据库。
主要结果
1. EDTS优势:
- 在Type I/II问题中准确率提升至77%,较FSC-128提高12%;
- 通过熵优化(公式2-4)有效避免长文本的语义稀释,如标准条款的分割边界识别误差降低34%。
模型规模影响:
RAG增强效果:
结论与价值
1. 科学价值:
- 提出EDTS方法,首次将信息熵理论应用于工程文本分割,为结构化知识检索提供新范式;
- 量化验证LLM规模与领域任务性能的非线性关系(图8),补充了垂直领域模型选择理论。
研究亮点
1. 方法论创新:EDTS算法通过局部熵最小化实现自适应分割,代码已开源;
2. 工程适配性:提出”7B模型+Top-10检索”的性价比最优方案;
3. 跨领域潜力:框架可扩展至法律、医疗等专业文本密集型领域。
局限与展望
当前知识库覆盖标准有限,未来需纳入施工日志、检测报告等动态数据,并探索与知识图谱(Knowledge Graph)的联合优化。