本文介绍的研究由Dantong Zhu、Wang Li、Kefei Zhang、Qingfeng Hu、Peipei He、Linjing Zhang、Suqin Wu、Weibo Yin、Minjie Gao以及Longjiang Li等人共同完成。其中,Dantong Zhu、Qingfeng Hu、Peipei He、Linjing Zhang和Weibo Yin来自华北水利水电大学测绘与地理信息学院;Wang Li来自昆明理工大学国土资源工程学院;Kefei Zhang、Suqin Wu和Longjiang Li来自中国矿业大学环境科学与测绘学院;Minjie Gao来自河南省西霞院水利枢纽输水灌溉工程建设管理局。这项研究成果发表在2025年12月31日出版的学术期刊《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》第19卷上(在线发表日期),最终版本于2026年1月16日发布。
该研究属于遥感与大气科学交叉领域,具体聚焦于利用全球导航卫星系统(Global Navigation Satellite System, GNSS)数据预测大气可降水量(Precipitable Water Vapor, PWV)。PWV是大气中的关键水汽参数,对天气预报、气候研究以及提高GNSS定位精度都至关重要。GNSS因其低成本、高精度和全天候连续观测能力,已成为获取PWV数据的重要手段。然而,全球范围内许多地区,例如中国的河南省,GNSS站点分布稀疏,有些地区甚至只有一个可用的站点。这种数据稀缺或数据稀疏的现状,使得依赖密集站点网络(如利用空间相关性的模型)的传统预测方法难以应用。同时,即便是在单站情况下,现有的预测模型(如依赖时间序列分解与神经网络结合的混合模型)在捕捉短期变化,尤其是在湿大气条件下PWV的快速波动方面,性能也有限。因此,本研究旨在解决这一核心挑战:开发一种适用于单站场景,并能充分利用有限数据资源实现高精度PWV短期预测的模型。具体研究目标为:提出一种融合关键气象特征的多通道卷积神经网络-长短期记忆网络(Multichannel Convolutional Neural Network - Long Short-Term Memory, CNN-LSTM)模型,通过优化输入特征和时间窗口长度,实现对未来一小时PWV的准确预测,并在仅有单站数据的河南地区进行验证与评估。
研究的详细工作流程涵盖了数据准备、模型构建、优化与评估的多个步骤。第一步是研究数据的选择与处理。研究的核心数据源于中国地壳运动观测网络(Crustal Movement Observation Network of China, CMONOC)提供的GNSS天顶总延迟(Zenith Total Delay, ZTD)数据。研究者首先分析了河南省内仅有的两个CMONOC站点(HAQS和ZHNZ)在2012年至2015年间的数据可用性。鉴于ZHNZ站在2013年至2015年期间提供了更连续、可靠的PWV时间序列,研究最终选定该站作为模型开发和验证的单一数据源。为了从ZTD中精确反演出PWV,研究者采用了一系列物理模型进行计算。首先,利用Saastamoinen模型和测站的地面气压(Surface Pressure, Sp)、纬度、高程信息计算天顶静力学延迟(Zenith Hydrostatic Delay, ZHD)。然后,从天顶总延迟(ZTD)中减去ZHD,得到天顶湿延迟(Zenith Wet Delay, ZWD)。最后,通过一个转换公式将ZWD转换为PWV,该公式涉及加权平均温度(Weighted Mean Temperature, Tm)等参数。Tm本身由欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts, ECMWF)提供的ERA5再分析数据通过垂直积分计算得出。ERA5数据(2013-2015年)也被用作关键的辅助气象变量来源,为模型提供Sp、Tm和ZWD数据。选择这些变量是因为它们从不同物理层面影响PWV:Sp代表地表压力条件,Tm联系地表和大气温度,ZWD直接反映对流层湿润状况。数据分析显示,Tm和ZWD与PWV呈强正相关(相关系数分别为0.685和0.999),而Sp与PWV呈负相关(-0.700),证实了它们作为预测因子的统计显著性。
第二步是构建并优化多通道CNN-LSTM预测模型。该模型的核心架构旨在结合CNN在特征提取和LSTM在时间依赖性建模方面的优势。针对单站数据特点,研究者设计了一个包含四个顺序CNN-LSTM模块的结构。每个模块包含一个一维CNN层和一个LSTM层。一维CNN层用于从多个输入特征(PWV、Sp、Tm、ZWD的组合)中提取共同的、有意义的特征模式;随后的LSTM层则负责学习这些特征随时间演变的规律,用于预测下一小时的PWV值。为了确定模型的最佳超参数(如各CNN层的滤波器数量、核大小,各LSTM层的隐藏单元数,以及全局的Dropout率和批大小等共14个参数),研究引入了鲸鱼优化算法(Whale Optimization Algorithm, WOA)。WOA是一种受座头鲸捕食行为启发的元启发式优化算法,以其较快的收敛速度和避免陷入局部最优的能力而著称。在优化过程中,每个“鲸鱼”个体代表一组可能的超参数配置,算法通过模拟环绕猎物、泡泡网攻击和随机搜索三个阶段,在预先定义的参数搜索空间内迭代寻找使预测误差(以均方根误差RMSE为损失函数)最小的最优配置。模型使用Adamax优化器进行训练。
第三步是系统性地确定模型的最佳输入配置。这包括两个关键子步骤:最优输入特征组合和最优历史数据长度。研究者构建了多种特征组合的CNN-LSTM模型(从仅用PWV到组合PWV、Sp、Tm、ZWD等),使用2013-2014年数据训练,2015年数据验证。结果表明,并非特征越多越好。尽管ZWD与PWV几乎完全相关,但将其单独引入模型(PWV+ZWD)反而导致性能下降,分析认为这可能是由于高共线性引发过拟合,以及ZWD本身由观测数据推算而来,其包含的误差会在预测过程中被放大。最终,结合了PWV、Tm和ZWD的三特征模型(Scheme C-3)取得了最佳预测表现。接着,研究者测试了1天至7天不同的历史输入序列长度。发现5天的输入窗口能带来最佳的预测精度(RMSE和MAE最低)。为了探究其原因,研究者对2013年PWV数据进行了功率谱分析,发现谱图在5天周期处出现显著峰值,表明5天窗口恰好捕捉了PWV一个完整的短期变化周期,从而为模型提供了最富信息量的历史背景。
第四步是对构建好的最优CNN-LSTM模型进行全面的性能评估与对比分析。评估采用了均方根误差(RMSE)、平均绝对误差(MAE)和皮尔逊相关系数三个指标。首先,研究将提出的CNN-LSTM模型与两个基准方法进行了对比:1) 广泛使用的全球预报系统(Global Forecast System, GFS)的3小时预报数据;2) 一个同样由WOA优化超参数的经典LSTM模型。为确保公平比较,对比均在GFS提供预报的相同时刻(世界时03:00, 09:00, 15:00, 21:00)进行。结果显示,GFS预报的精度最低(MAE:2.300 mm, RMSE:2.513 mm)。经典LSTM模型性能显著提升(MAE:0.697 mm, RMSE:0.996 mm)。而本文提出的CNN-LSTM模型进一步优化了结果,达到了MAE 0.694 mm, RMSE 0.789 mm,相关系数0.997。这意味着,相较于GFS,CNN-LSTM在MAE和RMSE上分别降低了69.8%和68.6%;相较于LSTM,MAE略有降低,RMSE则显著降低了20.8%。这一结果证明了在单站场景下,引入CNN进行多气象特征提取,相比于仅依赖时间序列的LSTM,能有效提升短期PWV预测的精度。
第五步是深入分析模型在不同季节和天气条件下的性能差异。季节性分析显示,模型性能存在明显的季节变化。在冬季(12月、1月、2月),大气稳定,PWV值较低且变化平缓,模型预测精度最高(MAE低至0.443 mm, RMSE 0.580 mm)。而在夏季(6月至8月),由于温度高、大气水汽含量大且变化剧烈,模型预测误差显著增大(例如8月MAE达1.10 mm, RMSE达1.50 mm)。尽管如此,模型在所有月份的预测值与真实值之间的相关系数均保持在0.983以上,表明模型始终能够准确捕捉PWV变化的整体趋势,但在湿条件下对波动幅度的精确预测面临挑战。天气条件分析则聚焦于晴天和降雨时期。模型在晴天条件下表现优异(MAE:0.708 mm, RMSE:0.764 mm)。然而,在降雨期间,预测性能随降水强度增加而下降。当降水超过2毫米时,MAE和RMSE相比晴天分别增加了约39.8%和45.9%。为了深入理解降雨期间性能下降的原因,研究者选取了一次具体的冬季降雨事件进行个案分析。通过追踪降雨过程中Sp、Tm、ZWD、PWV及预测误差的演变,发现预测误差的高值主要出现在PWV快速上升或下降的阶段,而非简单地与降水强度峰值同步。这表明,导致预测困难的核心因素是降雨伴随的PWV快速且大幅度的变化,这种高度的非线性波动对模型构成了主要挑战。
基于以上系统性的研究流程和详尽的结果分析,本研究得出了明确的结论。在GNSS站点稀疏、仅能获取单站数据的区域,通过集成关键气象特征(Sp, Tm, ZWD)并采用多通道CNN-LSTM架构,可以有效实现高精度的未来一小时PWV预测。优化后的模型(采用5天历史序列,输入特征为PWV、Tm和ZWD)性能显著优于广泛使用的GFS预报和经典的LSTM模型。该模型在不同季节和天气条件下均表现出稳健的预测能力,尤其在冬季和晴天条件下精度极高。尽管在夏季和降雨期间由于PWV快速变化导致精度有所下降,但模型仍能保持可接受的预测水平,并成功捕捉变化趋势。这项研究的科学价值在于,它为解决数据稀缺区域的GNSS气象学应用难题提供了一个创新且有效的解决方案。方法上的新颖性体现在将多通道CNN结构与LSTM结合,专门用于从单站的多源时间序列数据中联合提取时空特征,并通过WOA进行自动化超参数优化。其应用价值则十分显著:该模型不依赖于密集的GNSS观测网络,仅需单站GNSS数据及广泛可得的再分析气象数据(如ERA5),即可为气象预报、灾害性天气(如暴雨)的临近预警、气候研究以及高精度GNSS定位中的对流层误差修正提供可靠的PWV预测产品,具有很好的普适性和推广潜力。
本研究的亮点突出体现在以下几个方面:首先,研究问题具有明确的现实针对性和挑战性,直指全球许多地区GNSS站点稀疏、传统多站预测模型无法应用的痛点,提出了创新的“单站预测”范式。其次,方法设计精巧且系统。研究者并非简单套用现有深度学习模型,而是针对单站数据特点,设计了多通道CNN-LSTM融合架构,充分利用了有限数据中的多维度信息(PWV自身时序+关键辅助气象变量)。并且,通过严谨的实验(特征组合对比、时间窗口长度测试)确定了最优模型配置,其选择有数据支撑(如5天窗口与PWV的5天周期谱峰相对应)。再次,评估全面而深入。研究不仅进行了总体性能对比,还深入到季节性、不同天气条件(晴天/降雨)乃至具体降雨事件的微观尺度进行细致分析,揭示了模型性能变化的物理根源(PWV的快速变化是主要挑战),这使得结论非常扎实且有说服力。最后,所提出的模型框架具有很好的通用性。虽然本研究以河南单站为例,但该方法论可以推广到全球其他面临类似数据稀缺问题的地区,为提升局部区域的气象监测和预报能力提供了可行的技术路径。此外,文中对ZWD特征引入导致性能下降的归因分析(过拟合与误差传播),也体现了研究者对模型行为的深刻洞察,对后续研究具有启发意义。