基于网格长短期记忆模型和河道演算的全球日径流估算

分享自：
基于网格长短期记忆模型和河道演算的全球日径流估算

水利工程
工程学
期刊:Water Resources ResearchDOI:10.1029/2024wr039764
【点击此处】阅读全文、收藏及针对性提问
本文旨在向您介绍一项发表于《Water Resources Research》期刊（2025年）的重要水文研究。该研究由 Yuan Yang、Dapeng Feng、Hylke E. Beck 等来自加州大学圣地亚哥分校斯克里普斯海洋研究所、斯坦福大学、阿卜杜拉国王科技大学、北京大学、宾夕法尼亚州立大学等多个知名机构的科学家共同完成。研究提出并验证了一种名为“Grid LSTM-RAPID”的新方案，用于估算全球范围内每一条河道的日径流量，并基于此创建了一个名为“GRADES-HydroDL”的、覆盖1980年至今的全球河道级日径流数据集。
一、 研究背景与目标
河流流量是全球水循环的核心组成部分，在水资源管理、气候变化研究、自然灾害评估、生物多样性保护及能源生产等领域至关重要。然而，全球大部分河流缺乏实测流量数据，这限制了相关研究和应用。传统的基于物理过程的分布式水文模型（如VIC模型）虽然能提供全球模拟，但其精度和计算效率常受限于模型结构的复杂性和参数化方案。近年来，以长短期记忆神经网络（Long Short-Term Memory， LSTM）为代表的数据驱动（机器学习）方法在流域径流模拟中展现出超越传统模型的性能。然而，现有的“流域LSTM”（Basin LSTM）方法通常将整个流域（无论形状和大小）视为一个水文响应单元，仅估算流域出口的流量。这种方法存在几个关键局限：1）难以扩展到全球数百万条河道；2）使用流域平均输入会损失内部空间异质性信息；3）难以保证上下游河道间的质量平衡和时间一致性。
为了克服这些限制，本研究的目标是开发一种能够估算全球所有河道日径流量的新框架。研究团队提出的核心方案是“Grid LSTM-RAPID”：首先，将LSTM应用于规则网格（0.25°分辨率）而非不规则流域，以估算每个网格的径流；然后，利用RAPID河网汇流模型将网格径流演算至全球河道网络上。研究旨在评估这一新方案与传统的流域LSTM在精度上的权衡，并验证其相对于成熟的基于物理过程的基准模型（VIC-RAPID）的优越性，最终生成一个高质量的、公开可用的全球径流再分析数据集。
二、 研究方法与详细流程
本研究包含数据准备、模型构建、训练、评估和产品生成等多个紧密衔接的步骤，其核心流程可概括为三个主要阶段：
第一阶段：在小流域上训练LSTM模型 此步骤是整个研究的基础。研究团队首先从全球公开数据源（如USGS、GRDC、各区域CAMELS数据集等）收集了31,719个水文站的日流量数据。为确保训练数据的质量，他们制定了严格的筛选标准，包括流域边界准确性、流域面积（倾向于较小流域）、数据长度、人类活动影响程度等，最终选出了4,215个高质量的小流域作为训练集。这些流域在全球的分布虽不均衡（北美和欧洲密度高），但为模型学习普适性的降雨-径流关系提供了基础。
研究采用一个单一的全局LSTM模型进行训练。模型输入包括两部分：1）动态气象强迫数据：使用MSWEP V2.80的降水数据和ERA5再分析资料的其他气象变量（如温度），以及PROBA-V的月尺度叶面积指数（LAI）气候态数据；2）静态流域属性：根据文献选取了对降雨-径流关系最敏感的10个属性（如气候、地形、土壤特征）。模型以前365天的气象序列和静态属性为输入，预测第366天的标准化（经流域面积和平均降水归一化）径流。模型训练采用均方根误差（RMSE）作为损失函数，以优化低流量模拟。研究采用了集成学习策略，训练了4个不同随机种子的LSTM模型，最终的径流预测取四个模型结果的平均值，以增强稳定性。此步骤在训练集（1980-1999年）上进行，训练得到的模型既能直接用于估算流域出口流量（即传统的Basin LSTM），也为下一步的网格应用提供了核心算法。
第二阶段：将训练好的LSTM应用于全球0.25°网格 这是本研究的创新关键。研究团队将第一阶段训练好的LSTM模型（其学习的是小流域尺度的降雨-径流关系）直接应用于全球0.25°的规则网格上。每个网格被视为一个独立的水文响应单元，输入数据由流域平均改为网格点上的气象数据。模型为全球每一个网格生成日径流时间序列。这一步骤的可行性基于一个假设：所选训练小流域的面积范围（85.8至772.8平方公里）与0.25°网格的面积范围大致重叠，因此模型在网格尺度上的应用是合理的。这一步成功地将数据驱动的径流估算从“流域”尺度转换到了“空间连续”的网格尺度。
第三阶段：利用RAPID模型进行河道汇流计算 为了获得河道流量，需要将空间分布的网格径流汇集到河网中。研究采用了成熟的RAPID（Routing Application for Parallel computatIon of Discharge）汇流模型。该模型基于向量化的马斯京根法（Muskingum method），并进行了高度并行化优化，适合处理全球超过290万条河道的超大规模汇流计算。研究使用MERIT-Basins全球河网及流域数据集作为汇流基础框架。RAPID模型接收第二步产生的全球网格日径流作为输入，通过演算得到全球每一条河道从1980年至今的日流量时间序列。这一步骤将网格尺度的产流过程与网络尺度的汇流过程有机结合，形成了完整的“Grid LSTM-RAPID”方案。
为了全面评估新方案，研究设计了严谨的对比实验： 1. 对比模型：包括作为LSTM性能上限的Basin LSTM、新提出的Grid LSTM-RAPID，以及一个经过良好校准和偏差校正的基于物理过程的基准模型VIC-RAPID。 2. 评估策略：从时间和空间两个维度分割数据，模拟模型在“已见”和“未见”情况下的表现。 * 时间外推：使用1980-1999年数据训练，在2000-2020年数据上测试。 * 空间外推：在4,215个训练流域内进行10折交叉验证；以及更具挑战性的“扩展样本”测试：用4,215个小流域训练，在其余27,504个不同大小、数据质量各异的全球流域上测试。 3. 评估指标：主要采用修正的克林-古普塔效率系数（Kling-Gupta Efficiency， KGE）及其三个分量（相关系数CC、相对变差RV、相对偏差RB），并额外计算了高流量（前2%）和低流量（后30%）的偏差，以全面评估模型在不同流量区间的表现。
三、 主要研究结果
研究结果通过系统的对比实验，清晰地揭示了Grid LSTM-RAPID方案的性能、优势与局限。
1. Basin LSTM的性能基准： 作为参照，Basin LSTM在训练期、时间外推测试、空间外推测试和时空联合外推测试中的中位数KGE分别为0.783、0.761、0.689和0.687。结果表明，模型在时间上的泛化能力（KGE下降约0.02）优于在空间上的泛化能力（KGE下降约0.1）。这一性能与已有文献报道的先进LSTM流域模型相当，验证了本研究数据准备和LSTM模型实现的可靠性。
2. Grid LSTM-RAPID与Basin LSTM的权衡： Grid LSTM-RAPID在各项测试中均表现出与Basin LSTM相似的变化趋势。然而，其绝对性能有所下降：在训练期和时间外推测试中，中位数KGE比Basin LSTM低约0.07-0.08；在更具挑战性的空间和时空外推测试中，中位数KGE低约0.03（例如，时空测试中从0.687降至0.653）。这约0.03的KGE损失，正是为了实现“全球所有河道覆盖”这一目标所付出的代价。 性能下降主要源于相关系数（CC）的降低和流量变差（RV）的低估。分析认为，这部分误差可能来自于将流域尺度学习的模型应用于网格单元所产生的水文响应单元不匹配，以及RAPID汇流模型本身未经过流量观测值率定所引入的不确定性。
3. Grid LSTM-RAPID的全球性能： 尽管存在上述权衡，Grid LSTM-RAPID在全球扩展测试中仍展现出强大竞争力。在最具挑战性的“扩展时空外推测试”（使用小流域训练，在包含大流域、数据质量不一的全球站点上测试）中，其中位数KGE仍达到0.592。在全球范围内，约88.7%的站点模拟与观测的相关系数CC大于0.6，约62.3%的站点KGE大于0.5。模型在大部分地区能很好地再现流量动态，但在干旱区（如美国中部、南非、澳大利亚部分地区）表现相对较弱，这与基于过程的模型面临的挑战类似。
4. Grid LSTM-RAPID相对于过程式模型的优势： 这是本研究的重要发现。Grid LSTM-RAPID在所有对比实验中均显著优于经过校准和偏差校正的物理基准模型VIC-RAPID。在扩展时空外推测试中，Grid LSTM-RAPID的中位数KGE（0.592）比VIC-RAPID（0.443）高出约0.15。这种优势主要归功于LSTM在捕捉流量时间动态（更高的CC）方面的卓越能力。值得注意的是，VIC-RAPID是在更长时间序列上全局率定过的，而Grid LSTM-RAPID在此不利条件下仍取得了明显更优的性能，凸显了数据驱动方法在模拟精度上的潜力。
5. 新产品：GRADES-HydroDL数据集 基于Grid LSTM-RAPID方案，并利用全部1980-2020年数据训练以最大化模型技能，研究团队生成了一个名为GRADES-HydroDL的改进版全球河道级日径流数据集（覆盖至近实时）。该数据集是此前GRADES（基于VIC-RAPID）的迭代升级版。分析表明，GRADES-HydroDL能很好地再现全球河流的流量特征，包括平均流量、年际变异性以及洪水季节性（如洪水发生时间和集中度）。与同化遥感流量观测的再分析数据集GRDR相比，GRADES-HydroDL也显示出显著优势。该数据集已公开共享，旨在为洪水评估、水资源管理、生态环境研究等提供更优质的先验信息。
四、 研究结论与意义
本研究成功开发并验证了Grid LSTM-RAPID这一全新的全球径流估算框架。主要结论如下： 1. 将LSTM从流域尺度推广到网格尺度，并结合汇流模型，是实现全球全覆盖河道流量估算的有效途径。 2. 与理想的流域LSTM相比，新方案以约0.03的KGE性能损失为代价，换取了无需大量计算即可估算全球所有河道流量的能力。 3. 尽管存在性能权衡，Grid LSTM-RAPID显著优于一个经过良好校准的基于物理过程的基准模型，证明了其在全球尺度应用中的巨大潜力。 4. 基于此框架生产的GRADES-HydroDL数据集，在时间和空间覆盖率及精度上均有提升，具有重要的科学和应用价值。
五、 研究亮点与创新
方法创新：首次系统性地提出了“网格化LSTM + 汇流模型”的框架，将数据驱动径流模拟的空间适用性从离散的流域出口扩展到连续的全球河网，是机器学习与大尺度水文模拟结合的重要推进。
严谨的评估体系：研究设计了多层次、多维度的评估实验（时间外推、空间交叉验证、全球扩展测试），清晰量化了新方法相对于理想情况（Basin LSTM）和现有方法（VIC-RAPID）的性能得失与优势所在，论证坚实。
有价值的产品产出：不仅提出了方法，还生产并开源了高质量的全球长时序径流再分析数据集GRADES-HydroDL，直接服务于更广泛的科研和业务应用社区。
对局限性的坦诚剖析：研究明确指出了当前方案的不足，如水文响应单元尺度不匹配、汇流模型未率定、未考虑人类活动（如水库）影响等，并指明了未来改进方向（如采用可微分汇流模型、物理信息机器学习范式），体现了科学的严谨性。
六、 其他有价值的讨论
研究在讨论部分指出，Grid LSTM-RAPID性能损失的主要原因可能在于：1）训练（流域尺度）与应用（网格尺度）的水文响应单元不匹配；2）未经验证的简化汇流模型（RAPID）在模拟平原区水流动力等方面的固有局限；3）未考虑全球日益增长的水坝、水库等人类活动对水流的调节作用。这些挑战正是未来研究的关键方向，例如结合可微分汇流技术进行端到端优化，或探索物理信息机器学习范式，以在保持高精度的同时增强物理一致性和对人类活动的表征能力。
最后，作者谨慎指出，尽管GRADES-HydroDL经过了大量实测数据验证，但在无/少测站地区以及人类活动强烈的流域，使用时仍需保持警惕，并鼓励用户进行进一步的本地化评估。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问