一、 研究作者、机构及发表信息
本研究的主要作者为吴润泽(第一作者)及其合作者李浩、梅红波、王成彬、朱敏毅、王红群、张亮、胡光鸿、马明杰、望致文、张隆隆、黄旻、李振华(通讯作者)。研究团队主要来自中国地质调查局武汉地质调查中心、高坝大库运行安全湖北省重点实验室、中国地质大学(武汉)资源学院、中国地质大学(武汉)计算机学院以及新疆理工学院信息工程学院。这项研究以标题《基于知识图谱检索增强生成的滑坡监测预警系统》发表于《地球科学》(*Earth Science*)期刊,发表时间为2025年10月,对应刊物的第50卷第10期。
二、 学术背景与研究动机
本研究属于地球科学与计算机科学交叉领域,具体聚焦于地质灾害防治,特别是滑坡监测预警的智能化技术应用。三峡库区自蓄水以来,地质构造复杂,自然与人为因素叠加,地质灾害频发,严重威胁人民生命财产安全和工程运行。过去二十多年,国家在该区域开展了大量调查与研究,积累了海量数据,包括勘查报告、规范文档、监测数据等。然而,这些宝贵的知识和信息大多以非结构化的文字报告形式存在,形成了大量“沉睡”的资料,难以被信息系统直接利用和进行深度分析,限制了地质灾害防治从数据管理向知识管理的转型升级。
在此背景下,知识图谱(Knowledge Graph)技术因其强大的结构化知识表示与关联能力,成为解决上述问题的关键技术。知识图谱能够整合多源异构数据,构建结构化的知识网络,实现知识的显性化和可计算。同时,近年来兴起的大语言模型(Large Language Model, LLM)与检索增强生成(Retrieval-Augmented Generation, RAG)技术,为解决自然语言交互和生成内容的准确性问题提供了新途径。因此,本研究旨在探索一套系统的方法,将知识图谱技术、LLM/RAG技术与三峡库区滑坡防治的实际需求相结合,实现一个可供日常业务使用的、智能化的滑坡监测预警系统,其核心目标包括:构建滑坡监测预警领域本体模型、从历史资料中抽取并融合多源知识、实现基于知识的动态预警分析、以及提供智能化的知识问答服务,从而提升地质灾害防治工作的效率和智能化水平。
三、 详细研究流程与方法
本研究构建了一套涵盖数据管理、知识抽取、图谱构建、知识计算和输出的完整方法体系,其核心工作流程主要包括以下四个阶段:
第一阶段:多源数据整合与本体模型设计 研究首先系统收集并整合了三峡库区与滑坡相关的所有数据,可分为三大类: 1. 结构化数据:包括4,668个滑坡点和446个崩塌点的基本信息表,以及313项治理工程数据表,包含了地理位置、滑坡类型、地层岩性、工程措施等关键属性。 2. 非结构化文本数据:共处理209份文档,包括182份应急调查报告和工程勘察报告、22篇技术规范和指南、5篇相关文献(如专著《三峡库区滑坡监测预警理论与实践》),总计是本研究“盘活沉睡资料”的主要对象。 3. 动态监测数据:涵盖了2023年至2024年共66份监测月报,以及用于预测的未来天气数据和库水调度数据。
在数据整合基础上,研究团队设计并构建了“三峡库区滑坡监测预警本体模型”。该模型是知识图谱的“骨架”或“模式层”,明确了滑坡预警领域的关键实体(如滑坡体、监测数据、预警判据、历史事件、地理位置、工程措施等)、属性以及它们之间的复杂语义关系(如“属于”、“触发”、“发生于”等)。该模型的设计面向滑坡“监测-识别-预警-处置”的全业务流程,旨在实现静态地质特征与动态监测数据的有机融合,并支撑后续的知识抽取、图谱构建及智能应用。
第二阶段:多模态知识抽取与知识图谱构建 这是研究的核心环节,针对不同类型的数据,采用了三种互补的知识抽取方法: 1. 基于工具的手动标注:对于部分非结构化文本,使用Prodigy工具在专家指导下进行实体与关系的手动标注,为后续的自动化模型训练提供高质量种子数据。 2. 基于深度学习模型的自动化抽取:利用手动标注数据训练基于Transformer架构的深度学习模型,进行命名实体识别(Named Entity Recognition, NER)和关系抽取的联合训练。实验表明,该模型在滑坡领域实体识别的精确率、召回率和F1值均稳定在0.85以上,证明了其有效性。抽取出的结构化信息被转换为Cypher语句,导入Neo4j图数据库。 3. 基于大语言模型的增强抽取与理解:为进一步提升知识覆盖的全面性和语义理解的深度,本研究引入了大语言模型。具体采用了OneKE框架,通过定义领域Schema指令,对非结构化文本进行批量的实体关系抽取,生成结构化数据。LLM的介入有效补全了传统模型可能遗漏的长尾知识和复杂语义关系,尤其在解析嵌套式、多条件的预警判据描述时展现出优势。
经过上述多方法融合的知识抽取流程,研究成功构建了一个大规模、高质量的三峡库区滑坡监测预警知识图谱。该图谱最终包含12,797个实体(如具体滑坡、地理位置、灾害类型等)、34,873条关系(连接实体的语义边)以及9,658个知识片段(文本块,存储于向量数据库)。图谱以“张家湾滑坡”等具体灾害体为核心节点,关联其地理位置、类型、规模、勘察报告内容、治理工程、相关判据等,形成了一个高度互联的语义网络。
第三阶段:滑坡动态监测预警实现 为实现从“知识”到“预警”的转化,研究开发了监测预警模块。该模块并非依赖单一简单阈值,而是构建了一个多模型融合的预警体系: 1. 数据接口与模型集成:系统通过实时数据接口,获取位移、降雨量、库水位等动态监测数据以及未来天气预报。这些数据与知识图谱中存储的滑坡静态属性(如坡体结构、岩性)相结合。 2. 稳定性系数计算:针对三峡库区边坡条件复杂的特点,研究采用传递系数法作为核心分析模型,并编写了MATLAB算法程序。该算法基于实时与预测的工况数据(降雨、库水变动),结合具体滑坡的地质模型,计算其稳定性系数,动态评估滑坡稳定状态。 3. 多判据融合与预警生成:系统并行计算稳定性模型、临滑判据模型、复活判据模型的结果,并依据“最危原则”综合生成最终预警等级。预警结果以地图可视化形式展示,不同颜色代表不同预警级别。系统能够对未来10天内三峡库区4,518个滑坡的预警状态进行每日自动计算和输出。
第四阶段:检索增强生成赋能智能问答应用 为将知识图谱的价值直接赋能给终端用户(如地质工程师、决策者),研究开发了基于检索增强生成的智能问答系统。该系统旨在解决大语言模型直接生成答案时可能出现的“幻觉”问题,提升回答的专业性和准确性。 1. 架构设计:系统采用RAG框架,包含检索、增强、生成三个阶段。 2. 多源检索:当用户提出问题时,系统并行检索多个知识源:从Neo4j图数据库检索实体关系网络;从Milvus向量数据库检索非结构化报告中的相关语义片段;从MySQL关系数据库检索结构化历史灾险情数据。 3. 提示工程与增强生成:将检索到的多源信息(三元组、文本块、统计数据)进行整合和格式化,作为补充上下文输入给大语言模型。通过精心设计的提示词,引导模型基于检索到的事实信息进行逻辑推理和总结,生成最终答案。 4. 多样化问答能力:该系统能回答多种类型的问题,包括:数据查询(如“张家湾滑坡的基本信息”)、知识查询(如“动水压力型滑坡的特点”)、统计分析(如“2023年有多少灾险情?”)、统计推理(如“体积大于1000万方的滑坡有多少个?”)以及预测预报(如“未来三天哪些滑坡风险高?”)。
四、 主要研究成果
本研究在每个关键阶段都取得了具体、量化的成果: 1. 在本体模型与知识体系构建方面:成功设计并实现了面向业务闭环的滑坡监测预警本体模型,系统化梳理了地质灾害领域的实体、关系与属性,为领域知识的结构化奠定了理论基础。 2. 在知识抽取与图谱构建方面:成功“盘活”了209份历史文档,从中抽取了宝贵知识。最终建成包含近1.3万实体、近3.5万关系的知识图谱,将分散的、多源异构的数据融合成一个统一的结构化知识库,实现了地质灾害知识的语义化关联和系统化存储。 3. 在监测预警应用方面:实现了与监测系统、计算模型的深度集成,建立了基于多模型融合的动态预警机制。关键成果是系统能够每日对4,518个滑坡进行未来10天的预警预报,将传统的静态数据管理转变为动态的风险研判,显著提升了预警的时效性和覆盖范围。 4. 在智能化交互方面:构建了基于RAG的智能问答系统,成功将复杂的多系统数据查询和专业知识获取,简化为自然语言对话。该系统能提供五类问题的准确回答,极大降低了技术门槛,提高了信息获取效率,并通过检索增强机制有效抑制了“幻觉”,保证了回答质量。
这些结果环环相扣:本体模型指导了知识抽取,构建的知识图谱为预警模型提供了静态知识支撑和判据来源,预警模块的计算结果又可作为新知识反馈回系统,而智能问答系统则是所有知识价值的最终输出界面。它们共同构成了一个从数据到知识、从知识到预警、从预警到智能服务的完整闭环。
五、 研究结论与价值
本研究成功构建并实现了一个“基于知识图谱检索增强生成的滑坡监测预警系统”,为地质灾害防治的智能化转型提供了一个具有高度参考价值的解决方案。
其科学价值在于:首次系统性地将知识图谱构建、大语言模型增强抽取、多模型动态预警计算以及检索增强生成问答等多种前沿技术,深度融合并应用于滑坡监测预警这一具体的地学工程领域。它探索并验证了一套从非结构化地质文本中挖掘和利用知识的方法论,推动了地学领域从数据驱动向知识驱动、认知智能的演进。
其应用价值尤为突出:系统已不再是理论原型,而是能够服务于三峡库区地质灾害防治日常工作的实用工具。它解决了长期存在的“信息孤岛”和“知识沉睡”问题,实现了对海量历史资料的知识化再利用;通过自动化预警和智能问答,极大提升了地质灾害风险识别的效率、预警的精准性和决策支持的智能化水平,有望在实际防灾减灾中发挥重要作用。
六、 研究亮点
七、 其他有价值的内容与未来展望
研究团队在论文末尾也客观指出了当前工作的初步性,并提出了明确的后续研究方向,体现了严谨的科学态度:包括进一步完善地灾领域大模型、建立持续的数据更新机制、拓展应急方案制定等更多应用场景、研究支持多模态(如图像、声音)输入输出,以及探索基于智能体(Agent)的更深层次系统自动化对接。这些展望为技术的持续演进和更广泛的应用指明了路径。