基于多通道CNN-LSTM的单GNSS站区域可降水汽预测模型

分享自：
基于多通道CNN-LSTM的单GNSS站区域可降水汽预测模型

期刊:IEEE Journal of Selected Topics in Applied Earth Observations and Remote SensingDOI:10.1109/JSTARS.2025.3649502
本文介绍的研究由Dantong Zhu、Wang Li、Kefei Zhang、Qingfeng Hu、Peipei He、Linjing Zhang、Suqin Wu、Weibo Yin、Minjie Gao以及Longjiang Li等人共同完成。其中，Dantong Zhu、Qingfeng Hu、Peipei He、Linjing Zhang和Weibo Yin来自华北水利水电大学测绘与地理信息学院；Wang Li来自昆明理工大学国土资源工程学院；Kefei Zhang、Suqin Wu和Longjiang Li来自中国矿业大学环境科学与测绘学院；Minjie Gao来自河南省西霞院水利枢纽输水灌溉工程建设管理局。这项研究成果发表在2025年12月31日出版的学术期刊《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》第19卷上（在线发表日期），最终版本于2026年1月16日发布。
该研究属于遥感与大气科学交叉领域，具体聚焦于利用全球导航卫星系统（Global Navigation Satellite System， GNSS）数据预测大气可降水量（Precipitable Water Vapor， PWV）。PWV是大气中的关键水汽参数，对天气预报、气候研究以及提高GNSS定位精度都至关重要。GNSS因其低成本、高精度和全天候连续观测能力，已成为获取PWV数据的重要手段。然而，全球范围内许多地区，例如中国的河南省，GNSS站点分布稀疏，有些地区甚至只有一个可用的站点。这种数据稀缺或数据稀疏的现状，使得依赖密集站点网络（如利用空间相关性的模型）的传统预测方法难以应用。同时，即便是在单站情况下，现有的预测模型（如依赖时间序列分解与神经网络结合的混合模型）在捕捉短期变化，尤其是在湿大气条件下PWV的快速波动方面，性能也有限。因此，本研究旨在解决这一核心挑战：开发一种适用于单站场景，并能充分利用有限数据资源实现高精度PWV短期预测的模型。具体研究目标为：提出一种融合关键气象特征的多通道卷积神经网络-长短期记忆网络（Multichannel Convolutional Neural Network - Long Short-Term Memory， CNN-LSTM）模型，通过优化输入特征和时间窗口长度，实现对未来一小时PWV的准确预测，并在仅有单站数据的河南地区进行验证与评估。
研究的详细工作流程涵盖了数据准备、模型构建、优化与评估的多个步骤。第一步是研究数据的选择与处理。研究的核心数据源于中国地壳运动观测网络（Crustal Movement Observation Network of China， CMONOC）提供的GNSS天顶总延迟（Zenith Total Delay， ZTD）数据。研究者首先分析了河南省内仅有的两个CMONOC站点（HAQS和ZHNZ）在2012年至2015年间的数据可用性。鉴于ZHNZ站在2013年至2015年期间提供了更连续、可靠的PWV时间序列，研究最终选定该站作为模型开发和验证的单一数据源。为了从ZTD中精确反演出PWV，研究者采用了一系列物理模型进行计算。首先，利用Saastamoinen模型和测站的地面气压（Surface Pressure， Sp）、纬度、高程信息计算天顶静力学延迟（Zenith Hydrostatic Delay， ZHD）。然后，从天顶总延迟（ZTD）中减去ZHD，得到天顶湿延迟（Zenith Wet Delay， ZWD）。最后，通过一个转换公式将ZWD转换为PWV，该公式涉及加权平均温度（Weighted Mean Temperature， Tm）等参数。Tm本身由欧洲中期天气预报中心（European Centre for Medium-Range Weather Forecasts， ECMWF）提供的ERA5再分析数据通过垂直积分计算得出。ERA5数据（2013-2015年）也被用作关键的辅助气象变量来源，为模型提供Sp、Tm和ZWD数据。选择这些变量是因为它们从不同物理层面影响PWV：Sp代表地表压力条件，Tm联系地表和大气温度，ZWD直接反映对流层湿润状况。数据分析显示，Tm和ZWD与PWV呈强正相关（相关系数分别为0.685和0.999），而Sp与PWV呈负相关（-0.700），证实了它们作为预测因子的统计显著性。
第二步是构建并优化多通道CNN-LSTM预测模型。该模型的核心架构旨在结合CNN在特征提取和LSTM在时间依赖性建模方面的优势。针对单站数据特点，研究者设计了一个包含四个顺序CNN-LSTM模块的结构。每个模块包含一个一维CNN层和一个LSTM层。一维CNN层用于从多个输入特征（PWV、Sp、Tm、ZWD的组合）中提取共同的、有意义的特征模式；随后的LSTM层则负责学习这些特征随时间演变的规律，用于预测下一小时的PWV值。为了确定模型的最佳超参数（如各CNN层的滤波器数量、核大小，各LSTM层的隐藏单元数，以及全局的Dropout率和批大小等共14个参数），研究引入了鲸鱼优化算法（Whale Optimization Algorithm， WOA）。WOA是一种受座头鲸捕食行为启发的元启发式优化算法，以其较快的收敛速度和避免陷入局部最优的能力而著称。在优化过程中，每个“鲸鱼”个体代表一组可能的超参数配置，算法通过模拟环绕猎物、泡泡网攻击和随机搜索三个阶段，在预先定义的参数搜索空间内迭代寻找使预测误差（以均方根误差RMSE为损失函数）最小的最优配置。模型使用Adamax优化器进行训练。
第三步是系统性地确定模型的最佳输入配置。这包括两个关键子步骤：最优输入特征组合和最优历史数据长度。研究者构建了多种特征组合的CNN-LSTM模型（从仅用PWV到组合PWV、Sp、Tm、ZWD等），使用2013-2014年数据训练，2015年数据验证。结果表明，并非特征越多越好。尽管ZWD与PWV几乎完全相关，但将其单独引入模型（PWV+ZWD）反而导致性能下降，分析认为这可能是由于高共线性引发过拟合，以及ZWD本身由观测数据推算而来，其包含的误差会在预测过程中被放大。最终，结合了PWV、Tm和ZWD的三特征模型（Scheme C-3）取得了最佳预测表现。接着，研究者测试了1天至7天不同的历史输入序列长度。发现5天的输入窗口能带来最佳的预测精度（RMSE和MAE最低）。为了探究其原因，研究者对2013年PWV数据进行了功率谱分析，发现谱图在5天周期处出现显著峰值，表明5天窗口恰好捕捉了PWV一个完整的短期变化周期，从而为模型提供了最富信息量的历史背景。
第四步是对构建好的最优CNN-LSTM模型进行全面的性能评估与对比分析。评估采用了均方根误差（RMSE）、平均绝对误差（MAE）和皮尔逊相关系数三个指标。首先，研究将提出的CNN-LSTM模型与两个基准方法进行了对比：1) 广泛使用的全球预报系统（Global Forecast System， GFS）的3小时预报数据；2) 一个同样由WOA优化超参数的经典LSTM模型。为确保公平比较，对比均在GFS提供预报的相同时刻（世界时03:00, 09:00, 15:00, 21:00）进行。结果显示，GFS预报的精度最低（MAE：2.300 mm， RMSE：2.513 mm）。经典LSTM模型性能显著提升（MAE：0.697 mm， RMSE：0.996 mm）。而本文提出的CNN-LSTM模型进一步优化了结果，达到了MAE 0.694 mm， RMSE 0.789 mm，相关系数0.997。这意味着，相较于GFS，CNN-LSTM在MAE和RMSE上分别降低了69.8%和68.6%；相较于LSTM，MAE略有降低，RMSE则显著降低了20.8%。这一结果证明了在单站场景下，引入CNN进行多气象特征提取，相比于仅依赖时间序列的LSTM，能有效提升短期PWV预测的精度。
第五步是深入分析模型在不同季节和天气条件下的性能差异。季节性分析显示，模型性能存在明显的季节变化。在冬季（12月、1月、2月），大气稳定，PWV值较低且变化平缓，模型预测精度最高（MAE低至0.443 mm， RMSE 0.580 mm）。而在夏季（6月至8月），由于温度高、大气水汽含量大且变化剧烈，模型预测误差显著增大（例如8月MAE达1.10 mm， RMSE达1.50 mm）。尽管如此，模型在所有月份的预测值与真实值之间的相关系数均保持在0.983以上，表明模型始终能够准确捕捉PWV变化的整体趋势，但在湿条件下对波动幅度的精确预测面临挑战。天气条件分析则聚焦于晴天和降雨时期。模型在晴天条件下表现优异（MAE：0.708 mm， RMSE：0.764 mm）。然而，在降雨期间，预测性能随降水强度增加而下降。当降水超过2毫米时，MAE和RMSE相比晴天分别增加了约39.8%和45.9%。为了深入理解降雨期间性能下降的原因，研究者选取了一次具体的冬季降雨事件进行个案分析。通过追踪降雨过程中Sp、Tm、ZWD、PWV及预测误差的演变，发现预测误差的高值主要出现在PWV快速上升或下降的阶段，而非简单地与降水强度峰值同步。这表明，导致预测困难的核心因素是降雨伴随的PWV快速且大幅度的变化，这种高度的非线性波动对模型构成了主要挑战。
基于以上系统性的研究流程和详尽的结果分析，本研究得出了明确的结论。在GNSS站点稀疏、仅能获取单站数据的区域，通过集成关键气象特征（Sp， Tm， ZWD）并采用多通道CNN-LSTM架构，可以有效实现高精度的未来一小时PWV预测。优化后的模型（采用5天历史序列，输入特征为PWV、Tm和ZWD）性能显著优于广泛使用的GFS预报和经典的LSTM模型。该模型在不同季节和天气条件下均表现出稳健的预测能力，尤其在冬季和晴天条件下精度极高。尽管在夏季和降雨期间由于PWV快速变化导致精度有所下降，但模型仍能保持可接受的预测水平，并成功捕捉变化趋势。这项研究的科学价值在于，它为解决数据稀缺区域的GNSS气象学应用难题提供了一个创新且有效的解决方案。方法上的新颖性体现在将多通道CNN结构与LSTM结合，专门用于从单站的多源时间序列数据中联合提取时空特征，并通过WOA进行自动化超参数优化。其应用价值则十分显著：该模型不依赖于密集的GNSS观测网络，仅需单站GNSS数据及广泛可得的再分析气象数据（如ERA5），即可为气象预报、灾害性天气（如暴雨）的临近预警、气候研究以及高精度GNSS定位中的对流层误差修正提供可靠的PWV预测产品，具有很好的普适性和推广潜力。
本研究的亮点突出体现在以下几个方面：首先，研究问题具有明确的现实针对性和挑战性，直指全球许多地区GNSS站点稀疏、传统多站预测模型无法应用的痛点，提出了创新的“单站预测”范式。其次，方法设计精巧且系统。研究者并非简单套用现有深度学习模型，而是针对单站数据特点，设计了多通道CNN-LSTM融合架构，充分利用了有限数据中的多维度信息（PWV自身时序+关键辅助气象变量）。并且，通过严谨的实验（特征组合对比、时间窗口长度测试）确定了最优模型配置，其选择有数据支撑（如5天窗口与PWV的5天周期谱峰相对应）。再次，评估全面而深入。研究不仅进行了总体性能对比，还深入到季节性、不同天气条件（晴天/降雨）乃至具体降雨事件的微观尺度进行细致分析，揭示了模型性能变化的物理根源（PWV的快速变化是主要挑战），这使得结论非常扎实且有说服力。最后，所提出的模型框架具有很好的通用性。虽然本研究以河南单站为例，但该方法论可以推广到全球其他面临类似数据稀缺问题的地区，为提升局部区域的气象监测和预报能力提供了可行的技术路径。此外，文中对ZWD特征引入导致性能下降的归因分析（过拟合与误差传播），也体现了研究者对模型行为的深刻洞察，对后续研究具有启发意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问