本研究的主要作者为巴西国家自然灾害监测与预警中心(Cemaden)及国家空间研究所(INPE)的Jaqueline A.J.P. Soares博士,合作者来自巴西航空技术学院(ITA)土木工程系和美国杜克大学土木与环境工程系。该研究于2025年发表在*Journal of Hydrology*期刊(第652卷)。
研究的学术背景 该研究的主要科学领域属于水文科学与机器学习交叉学科,专注于山洪预报。山洪因其突发性、历时短、动力过程复杂且破坏性巨大,一直是水文预报中的重大挑战。传统的基于物理过程的模型(Physics-based modeling)在面对山洪预报时,常常由于参数化复杂、计算强度高、难以适应不同流域特征以及数据稀缺等问题而难以获得准确的预测。近年来,数据导向型模型(Data-oriented modeling),尤其是机器学习方法,因其能够从数据中捕获复杂的非线性关系,在水文预报领域显示出巨大潜力。然而,现有的机器学习应用研究多侧重于日尺度或更长时间尺度的水文预报,针对山洪这种亚日(Sub-daily)时间尺度的快速响应流域的预测研究相对不足,且缺乏对多种机器学习方法在相同数据集上进行系统化比较和评估的框架。
在此背景下,本研究旨在解决两个核心问题:第一,如何为山洪预报任务高效地筛选和优化最适合特定流域的机器学习模型;第二,开发一个系统化、可复现的框架,以降低研究人员和从业人员应用机器学习进行山洪预报的技术门槛。因此,本研究的核心目标是提出并验证一个名为“ML4FF”(Machine Learning for Flash Flood)的机器学习框架。该框架集成了多种机器学习方法,能够自动化地完成从模型生成、超参数优化到性能评估的全过程,从而允许用户基于自己的流域数据快速实验,找出最优的预测模型。
详细的工作流程 本研究的工作流程主要分为两大部分:第一部分是应用ML4FF框架对一个具体的巴西流域(本加拉斯河流域)进行测试案例研究;第二部分是详细介绍ML4FF框架本身的设计与实现。这两部分是紧密结合的,测试案例用于验证和展示框架的效能。
测试案例与数据准备:
- 研究区域:选择位于巴西里约热内卢州新弗里堡市(Nova Friburgo)的本加拉斯河(Bengalas River)流域作为测试案例。这是一个典型的城市山洪易发临界流域,地形崎岖,城市化程度高,因靠近海岸而常受地形性强对流风暴影响,历史上多次发生造成人员伤亡和严重损失的洪灾。
- 数据来源与内容:数据集来源于里约热内卢州环境与农业研究所(INEA-RJ)的5个自动监测站。数据时间跨度为2011年12月至2013年3月,时间分辨率为15分钟。输入变量包括5个站点各自的水位和降雨量,共10个特征。输出(目标)变量为流域出口处(Conselheiro Paulino站)未来120分钟(即提前2小时)的水位。该提前期是根据流域的汇流时间(约2小时)设定的。
- 数据划分:总共有46,080个数据实例。其中87.5%(40,320个)用于“训练-验证-测试”阶段,12.5%(5,760个)作为“保留评估”阶段的数据集,用于最终检验模型的泛化能力。
ML4FF框架设计与实施:
- 方法集合:框架内置了34种机器学习方法,涵盖11个类别,包括:2种深度学习(Deep Learning, DL)方法(基于LSTM架构)、1种组合(Compose)方法、1种交叉分解(Cross Decomposition)方法、1种虚拟(Dummy)方法(作为基线)、5种集成(Ensemble)方法、1种高斯过程(Gaussian Process)方法、16种线性模型(Linear Model)方法、2种近邻(Neighbors)方法、1种神经网络(Neural Network)方法(多层感知机MLP)和2种支持向量机(SVM)方法。所有方法均使用Python的Scikit-learn库(及部分扩展库如XGBoost, LightGBM, PyTorch)实现。
- 核心工作流程:
- 数据分割:用户输入数据集后,框架自动将其分为“嵌套交叉验证数据集”(用于模型开发)和“保留数据集”(用于最终测试)。
- 嵌套交叉验证与超参数优化:这是框架的核心创新之一。采用“嵌套交叉验证”(Nested Cross-Validation)方案,具体为30×10的时序分割(TimeSeriesSplit)。
- 外层循环:将“嵌套交叉验证数据集”分为30份。在30次迭代中,训练集规模逐次递增(从1/31到30/31),测试集规模始终保持为1/31。外层循环的目的是评估模型的泛化性能。
- 内层循环:在每一次外层循环中,将其对应的训练集进一步划分为10份,进行内层交叉验证。内层循环用于自动超参数调优。
- 自动化贝叶斯优化:框架集成了Hyperopt库,采用贝叶斯优化(Bayesian Optimization)算法在内层循环中自动搜索每个机器学习方法的最佳超参数组合。损失函数设定为负的平均归一化纳什效率系数(-mean(NNSE)),以突出对洪水峰值的预测能力。此过程避免了繁琐的手动调参,提高了效率。
- 模型训练与评估:对于每一组超参数,在内层循环中训练模型并在验证集上评估性能(计算NNSE),贝叶斯优化算法据此不断更新对最优参数空间的认知。当优化停止后,使用找到的最佳超参数,在外层循环的整个训练集上重新训练模型,然后在外层循环的独立测试集上评估其性能。最终,外层循环30次评估结果的平均值代表了该机器学习方法在“训练-验证-测试”阶段的综合表现。
- 最终模型与保留评估:完成所有外层循环后,使用整个“嵌套交叉验证数据集”(即不含保留集的所有数据)和通过内层优化得到的最佳超参数,训练一个“生产模型”。最后,用完全独立的“保留数据集”来评估该生产模型的最终泛化预测能力。
- 评估指标:框架采用多指标评估体系,包括水文学界常用的纳什效率系数(Nash–Sutcliffe model efficiency coefficient, NSE)、归一化纳什效率系数(Normalized NSE, NNSE)、克林-古普塔效率(Kling–Gupta efficiency, KGE)和均方根误差(Root-mean-square error, RMSE)。同时,框架还记录了两个阶段的执行时间:模型开发总耗时(ET_train)和保留集预测耗时(ET_holdout)。
主要研究结果 研究结果主要基于ML4FF框架应用于本加拉斯河流域测试案例的输出,从两个阶段进行分析。
训练-验证-测试阶段(CV30×10)结果:
- 该阶段评估了34种方法在时间序列不同分割下的稳定性和平均性能。结果表明,并非所有方法都表现出色。
- 在NSE中位数指标上,表现最佳的方法是两类支持向量机(‘LinearSVR’ 和 ‘NuSVR’)以及一种稳健线性回归方法(‘TheilSenRegressor’),它们的NSE中位数均大于0.70。而交叉分解、虚拟、决策树类方法以及部分线性模型和近邻方法表现较差,甚至出现了负的NSE中位数,表明这些方法在某些数据子集上预测失效。值得注意的是,两种LSTM深度学习方法(‘LSTM’ 和 ‘LSTMpre’)在此阶段的NSE中位数较低,分析认为这可能与小规模训练集(外层循环早期迭代)或数据非平稳性影响了深度模型的优化有关。
- 在KGE中位数上,超过60%的方法达到了“良好性能”的阈值(KGE ≥ 0.75)。
- 在RMSE中位数上,超过88%的方法达到了“非常好”的阈值(RMSE ≤ 0.074)。
- 计算成本:深度学习和部分集成方法(如随机森林)的训练优化时间(ET_train)显著长于其他方法,其中‘RandomForestRegressor’耗时超过5天。这体现了模型复杂性与计算开销的权衡。
保留评估阶段(Holdout Assessment)结果:
- 此阶段模拟了模型部署到新数据上的真实场景,是评价模型最终实用价值的关键。
- 综合NSE, NNSE, RMSE三个指标,表现最优的三个模型脱颖而出:长短期记忆网络(‘LSTM’)、轻量梯度提升机(‘LightGBMRegressor’, ‘LGBMRegressor’)和Nu支持向量回归(‘NuSVR’)。这三个模型在保留集上取得了卓越的预测性能:NSE ≥ 0.80,KGE ≈ 0.90,RMSE < 0.05。这标志着它们成功捕捉了本加拉斯河流域出口水位在120分钟提前期内的变化规律。
- 结果可视化与分析:
- 泰勒图:直观显示,‘LSTM’、‘LGBMRegressor’和‘NuSVR’的预测序列与观测序列的相关性最高(相关系数接近或超过0.9),中心化均方根误差最小,且预测值的标准差最接近观测值的标准差。
- 过程线对比图:展示了在保留集时间段内(2013年1月23日至3月24日),三个最优模型的预测水位与实测水位、以及出口处降雨量的对比。图显示,‘NuSVR’的预测曲线与实测曲线贴合最为紧密;‘LSTM’存在轻微高估,而‘LGBMRegressor’存在轻微低估。三者均成功地复现了主要的洪水峰值和谷值,这对于灾害风险评估至关重要。分析还发现,最高的水位峰值(2.62米)与一次强降雨事件(15分钟内20毫米)对应,但水位与局部降雨的总体相关系数仅为0.31,表明上游来水等其他因素对出口水位有重要影响。
- 预测速度:所有优化后的模型在保留集上进行预测的时间(ET_holdout)都极短,大多数方法在不到百分之一秒内即可完成整个序列(5759个时间点)的预测。这表明,一旦模型训练完成,其在实时预报系统中的运算开销可以忽略不计。
结论与研究意义 本研究的核心结论是成功开发并验证了ML4FF框架。该框架通过自动化的嵌套交叉验证和贝叶斯超参数优化,为用户提供了一个强大且易用的工具,能够系统性地比较和选择适用于特定山洪易发流域的最佳机器学习预测模型。
其科学价值在于:1)为山洪这一水文预报难题提供了一套标准化、可复现的数据驱动研究流程;2)通过一个具体案例,系统评估了34种机器学习方法在亚日时间尺度山洪预报中的表现,为后续研究提供了宝贵的基准(Benchmark)信息;3)证实了对于本加拉斯河这样的快速响应城市流域,先进的机器学习模型(如LSTM、LightGBM和SVM)能够实现高精度(NSE > 0.8)的水位提前2小时预报。
其应用价值非常显著:1)降低技术门槛:水文工作者无需精通所有机器学习算法的实现细节,即可利用该框架进行模型实验。2)提高效率:自动化流程节省了大量人工调参和模型比较的时间。3)促进本地化应用:框架的开放性允许任何用户将其应用于自己关心的流域,只需提供相应的监测数据,就有可能快速获得针对该流域的定制化最优预测模型。4)支持实时预报:优化后的模型预测速度极快,完全满足业务化山洪预警系统对时效性的苛刻要求。
研究亮点 1. 框架创新性:ML4FF是首个专门针对山洪预报、集成多种机器学习方法并实现全自动化(从数据输入到模型评估)的比较研究框架。其嵌套交叉验证与贝叶斯优化相结合的方案设计巧妙,既保证了评估的无偏性,又高效地解决了超参数寻优问题。 2. 方法系统性:研究没有局限于单一或少数几种热门算法(如LSTM),而是广泛涵盖了从简单线性模型到复杂深度学习等11个类别共34种方法,提供了全面的性能对比图景。 3. 聚焦实际问题:研究明确针对山洪预报的“快速动态”和“数据稀缺”挑战,所选测试案例是真实的巴西高风险城市流域,时间分辨率是关键的15分钟,预报提前期基于流域汇流时间设定,这些都增强了研究的现实意义和参考价值。 4. 结果的可操作性:不仅指出了表现最好的模型,还公开了完整的框架源代码和数据,确保了研究的可重复性,并极大地方便了其他研究者和业务部门的直接应用与二次开发。
其他有价值内容 研究在讨论部分还展望了框架的未来改进方向,例如:1)引入特征选择自动化模块;2)支持GPU加速以降低深度学习方法训练阶段的时间成本;3)考虑纳入不确定性量化指标。此外,作者将ML4FF框架的所有源代码、测试案例数据以及详细结果都公开在GitHub仓库中,遵循MIT许可证,这充分体现了开放科学的精神,必将推动该领域的研究协作与技术进步。