分享自:

基于深度学习与概率阈值优化的山区小流域山洪预警方法

期刊:Journal of HydrologyDOI:10.1016/j.jhydrol.2025.132677

关于深度学习在山区小流域山洪概率预警应用研究的学术报告

本报告旨在向各位研究者介绍一项发表在《Journal of Hydrology》上的最新研究。该研究由四川大学水利水电学院、水力学与山区河流开发保护国家重点实验室的赵雨婷、吴雪梅、张文章、兰平、秦光华、李晓东以及通讯作者李红霞*共同完成,并于2025年1月在线发表(期刊卷号652,文章ID 132677)。研究题为《a deep learning-based probabilistic approach to flash flood warnings in mountainous catchments》,提出了一种基于混合深度学习模型与概率阈值优化的山洪预警新框架。

一、 研究学术背景

本研究属于水文预报与灾害防治领域,特别聚焦于山洪这一极具破坏性的自然灾害。山洪因其时空尺度小、响应时间短、流域条件复杂等特点,其精准预警一直是学术界和工程界的重大挑战。传统的主流预警方法依赖于基于降雨阈值的确定性水文模型,其输出通常是简单的“是/否”二元判断。然而,这种方法未能考虑山洪发生的不确定性和概率信息,限制了其为决策者提供更丰富、更灵活风险信息的能力。概率方法能够量化事件发生的可能性,是解决这一问题的潜在方向,但其应用面临计算资源需求大、特征工程繁琐以及难以捕捉复杂非线性水文过程等挑战。

近年来,机器学习,特别是深度学习,在洪水预报等领域展现出巨大潜力。它们能够不依赖于对复杂物理过程的完整认知,通过数据挖掘来模拟水文动力。然而,将深度学习应用于概率性山洪预警的研究尚不多见。现有少数研究存在输入变量代表性不足(如仅考虑不同历时的累积降雨)以及默认使用0.5作为预警概率阈值等局限。此外,降雨虽是触发山洪的关键因素,但前期土壤湿度和降雨形态也对山洪发生有显著影响,将这些因素纳入模型有望提升预警效果。

基于上述背景,本研究旨在提出一个融合概率阈值优化的混合深度学习概率性山洪预警方法,并探索前期土壤湿度和降雨形态对提升山洪预报能力的影响。

二、 详细工作流程

本研究的工作流程系统而完整,主要包含以下几个核心环节:

  1. 研究区域与数据准备

    • 研究区域:选取中国四川省达州市东北部的清溪河流域作为研究对象。该流域是典型的山区流域,位于大巴山暴雨区,山洪频发。流域面积297平方公里,地形陡峭,设有多个雨量站。
    • 数据来源与预处理:研究使用了1998年至2017年的逐小时降雨和流量数据。采用泰森多边形法计算面平均雨量。通过设定规则(间隔期降雨小于2毫米/小时至少6小时)分离独立降雨事件。采用2年一遇的流量重现期作为临界成灾流量阈值(619立方米/秒),用于判断是否发生山洪。
    • 样本构建:最终从降雨和流量序列中提取出166场事件,其中21场引发山洪(类别1),145场未引发山洪(类别0)。将1998-2010年的105场事件作为训练集(1194个逐小时样本),2011-2017年的61场事件作为测试集(672个逐小时样本)。每个小时尺度的样本包含7个输入变量:1、3、6、12、24小时累积降雨量、前期降雨指数以及降雨形态编码。所有变量在输入模型前进行了归一化处理。
  2. 确定性山洪预警模型构建(作为对比基准)

    • 模型选择:采用广泛应用于湿润半湿润地区的新安江模型作为确定性水文模型的代表。
    • 参数率定与阈值确定:使用遗传算法优化模型参数,以纳什效率系数为目标函数。通过试算,针对干、中、湿三种不同的初始土壤湿度条件(分别用0.2wm, 0.5wm, 0.8wm表示,wm为最大土壤含水量),计算相应的临界降雨阈值。通过不断调整初始降雨假设,直至新安江模型模拟的洪峰流量与临界流量之差满足精度要求(本研究为0.5立方米/秒),从而得到各土壤湿度条件下的降雨阈值。
  3. 概率性山洪预警模型设计与开发(本研究核心)

    • 模型架构:研究创新性地提出了一个混合深度学习模型——CNN-LSTM-Multihead-Attention。该模型耦合了卷积神经网络、长短期记忆网络和多头注意力机制。
      • CNN模块:采用一维卷积,作为信息提取器,用于从输入的时间序列中提取局部特征。
      • LSTM模块:用于捕捉时间序列中的长期依赖关系,通过其门控结构(输入门、遗忘门、输出门)过滤、存储和生成信息。
      • Multihead-Attention模块:作为自注意力机制的一种变体,从多个子空间关注信息,共同捕获每个单头注意力的短期和长期依赖关系,从而增强对重要输入特征的识别能力,使网络中的每个节点获得全局感受野。
    • 输入变量生成与影响分析
      • 降雨形态:采用动态时间规整算法,将每场实际降雨过程的形态与7种标准化向量模板进行相似性比较,将DTW距离最小的模板编码(1-7)作为该事件的RP输入。
      • 前期土壤湿度:由于缺乏实地土壤水分数据,采用前期降雨指数作为替代指标。API根据前10天的降雨量计算,日衰减系数k取0.85。
      • 变量重要性评估:采用平均影响值算法量化各输入变量对模型输出的相对重要性。通过分别对每个输入变量的样本值进行±10%的扰动,观察模型输出的变化,计算其MIV,绝对值越大表示该变量对模型输出的影响越大。
    • 概率输出与阈值优化(关键创新点)
      • 概率输出:模型末端使用Softmax函数,将原始输出转换为两类(成灾/不成灾)的概率分布,其和为1。
      • 阈值优化方法:研究指出,针对类别不平衡(正类样本仅占约19%)的数据,默认的0.5概率阈值并非最优。为此,研究提出了一种基于best_diff准则的概率阈值优化方法。diff定义为关键成功指数与欧几里得距离之差。优化过程是在训练和测试数据上,遍历一系列可能的决策阈值,选择能使diff最大化且同时满足命中率高于0.9(更关注对成灾事件的检出)的阈值作为最优概率阈值。
  4. 模型评估与对比分析

    • 评估指标:采用了一系列指标来全面评估预警性能,包括接收者操作特征曲线下面积、命中率、误报率、欧几里得距离、关键成功指数和准确率。其中,HR和CSI越高越好,FAR和ED越低越好。
    • 对比方案:将提出的CLMA概率模型与确定性新安江模型进行对比。同时,为了探究输入变量的影响,设置了四种不同的CLMA模型输入组合进行对比:仅降雨、降雨+RP、降雨+API、降雨+RP+API。

三、 主要研究结果

研究结果通过系统的对比分析,清晰地展示了所提方法的优越性。

  1. 概率模型相对于确定性模型的优势

    • 确定性新安江模型仅能输出“0”或“1”的二元结果,在研究期内出现了漏报的情况。
    • 而CLMA概率模型能够提供逐小时的山洪发生概率值,实现了更丰富的信息输出。具体案例显示,CLMA模型能够更灵活地处理复杂情况:对于峰值雨强和累积雨量均低于平均水平的成灾事件,它能提前2-9小时发出预警;对于累积雨量大但强度低的未成灾事件,它能准确识别风险不高,避免误报;即使在两者都准确预报的情况下,CLMA模型也能比水文模型提前2-3小时发出预警。总体而言,该方法将预警平均提前了1-3小时,并有效减少了误报和漏报。
  2. 不同输入变量对概率模型性能的影响

    • AUC结果表明,在测试期,降雨+RP+API组合的模型性能最佳,其次为降雨+API降雨+RP,仅使用降雨的模型性能最差。引入降雨以外的变量均能提升模型性能,其中API的影响大于RP。
    • 对21场成灾事件的深入分析(首次概率超过0.5的时刻、超过0.5的小时数、概率曲线下面积)和对145场未成灾事件的概率曲线下面积分析均一致表明,降雨+RP+API组合表现最优,其次是降雨+API
    • MIV分析量化了这一影响:API的归一化MIV为1,RP为0.43,证实了前期土壤湿度是决定山洪发生的最重要因素,而RP也具有显著的增强作用。案例分析进一步揭示了RP与API的耦合效应:单独考虑RP或API可能增加误报风险,但同时考虑两者则能帮助模型避免误报。
  3. 概率阈值优化的效果

    • 应用best_diff准则优化后,不同输入组合模型的最优概率阈值分别为:仅降雨(0.6)、降雨+RP(0.705)、降雨+API(0.745)、降雨+RP+API(0.905)。最优阈值均高于默认的0.5,这适应了样本不平衡的特点。
    • 与使用默认阈值相比,优化阈值后所有模型的预警效果均有提升。对于最佳的降雨+RP+API模型,优化后各项指标得到显著改善:CSI从0.67大幅提升至0.83,准确率从0.94提升至0.98,命中率从0.90提升至0.95,ED从0.10降低至0.05,FAR从0.06降低至0.02。这表明阈值优化策略有效增强了模型对少数类(成灾事件)样本的敏感性,在保证高命中率的同时,显著降低了误报和综合误差。
  4. 阈值优化机制的深入解释

    • 通过绘制所有样本(成灾与未成灾)的概率分布图并结合AUC值进行了解释。高AUC值意味着模型能够很好地将成灾事件的概率排序在未成灾事件之上。对于降雨+RP+API模型,其AUC最高(0.95),因此可以将概率阈值提高到0.905,从而在几乎不影响准确性的前提下,更清晰地区分两类事件,这直接导致了CSI的显著提高和ED的下降。

四、 研究结论与意义

本研究得出以下主要结论: 1. 所提出的基于CLMA的深度学习的概率性山洪预警模型,通过提供逐小时的山洪发生概率分布,在减少误报和漏报、平均提前1-3小时预警方面,显著优于传统的确定性水文模型,极大地丰富了预警信息的维度和决策支持能力。 2. 在模型中纳入前期土壤湿度和降雨形态信息能够有效提升山洪预报能力,其中前期土壤湿度的影响更为关键。结合降雨、RP和API的模型取得了最佳性能。 3. 针对样本不平衡问题,提出的基于best_diff准则的概率阈值优化方法,能够显著改善概率预警模型的性能,使模型预报更加稳健可靠。

本研究的科学价值在于:首次将混合深度学习框架与系统的概率阈值优化策略相结合,应用于山区小流域的山洪概率预警,为解决这一复杂水文预报问题提供了一条新的、有效的技术路径。其应用价值体现在:所构建的模型能够为防汛部门提供更早、更准、信息更丰富的风险概率产品,支持更科学、更灵活的预警发布和防灾减灾决策。研究证实了深度学习在概率性山洪预报框架中的应用潜力。

五、 研究亮点

  1. 方法创新性:研究不是简单应用现有深度学习模型,而是构建了CNN-LSTM-Multihead-Attention混合架构,并创造性地提出了针对不平衡样本的best_diff概率阈值优化方法,形成了从模型结构到决策环节的完整概率预警解决方案。
  2. 输入变量系统性:深入探讨并量化了前期土壤湿度和降雨形态这两个关键但常被简化处理的因素对模型性能的影响,强调了多因素耦合建模的重要性。
  3. 对比分析全面性:不仅与传统的确定性水文模型进行了案例级的细致对比,还通过控制变量法系统评估了不同输入组合的效果,并通过MIV和概率分布图对结果进行了多角度的机理阐释。
  4. 结论实用性:研究得出的“概率输出优于二元输出”、“API作用大于RP”、“优化阈值可显著提升性能”等结论,对后续研究和业务应用具有明确的指导意义。

六、 其他有价值的讨论

研究在讨论部分也坦诚指出了当前工作的局限性并展望了未来方向,体现了研究的严谨性和前瞻性: 1. 样本不平衡问题:尽管通过阈值优化缓解了问题,但未来可探索重采样、损失函数重塑等更多技术。 2. 不确定性量化:当前模型尚未完全考虑数据、模型结构和参数化带来的不确定性。未来可探索贝叶斯深度学习等方法来量化不确定性,提高预测的可靠性。 3. 输入数据改进:API仅是土壤水分的替代指标,未来可结合实地测量、遥感产品或更精细的水文模拟来获取更真实的土壤水分数据。降雨形态的分类模板也可以进一步优化以更贴合实际。 4. 模型发展方向:未来可尝试将水文过程的物理机制约束与深度学习模型相结合,发展物理信息驱动的深度学习模型,以减少建模的不确定性,获得更具物理一致性的预报结果。

这项研究为山洪概率预警提供了扎实的方法论基础和富有前景的实践案例,是该领域一项具有重要意义的研究进展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com