分享自:

基于高斯混合长短期记忆网络的高级对流层延迟模型(第一次投稿审稿人推荐)

期刊:IEEE Transactions on Geoscience and Remote SensingDOI:10.1109/tgrs.2025.3549124

基于高斯混合长短时记忆网络的高级对流层延迟模型研究学术报告

本文旨在介绍由Duo Wang、Lingke Wang和Hansjörg Kutterer共同完成,发表于2025年《IEEE Transactions on Geoscience and Remote Sensing》第63卷(文章号5800914)的原创研究论文《An Advanced Tropospheric Delay Model Based on Gaussian Mixed Long Short-Term Memory Network》。本研究由德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology, KIT)大地测量研究所(Geodetic Institute, gik)的科研人员完成,并获得了中国国家留学基金委(CSC)的支持。

一、 学术背景与研究目标

本研究隶属于大地测量学与微波遥感交叉领域,核心问题是精确估计对流层延迟(Tropospheric Delay),特别是天顶总延迟(Zenith Total Delay, ZTD)。当卫星微波信号(如来自全球导航卫星系统GNSS或合成孔径雷达SAR)穿过中性大气层时,会受到大气中干燥气体和水汽的影响,导致信号路径发生弯曲和延迟,即对流层延迟。它是高精度GNSS定位和干涉合成孔径雷达(InSAR)地表形变监测中最重要的误差源之一。为了描述其影响,通常使用映射函数将斜路径延迟转换为天顶方向,得到ZTD。

目前,获取ZTD主要有两种途径。一种是基于GNSS观测数据通过精密单点定位(Precise Point Positioning, PPP)技术反演得到高精度、高时间分辨率的站点ZTD产品(ZTD_GNSS),但受限于GNSS台站分布,其空间分辨率不足。另一种是基于数值气象模型(Numerical Weather Models, NWMs,如ERA5)结合经验模型(如Vienna Mapping Functions 3, VMF3)生成全球网格化的ZTD估计值。然而,后者与GNSS反演的ZTD参考值相比,仍存在厘米级的差异,这无法满足精密定位和地表形变监测的亚厘米级精度要求。这种差异主要源于对由水汽变化和大气湍流严重影响的天顶湿延迟(Zenith Wet Delay, ZWD)部分的建模不准确。因此,研究界亟需一种兼具高精度和高空间分辨率的ZTD产品。

传统的空间插值方法或简单的神经网络模型难以充分捕捉ZWD复杂的时空特征和不确定性。深度学习作为一种强大的数据驱动方法,为学习从NWM模型ZWD到GNSS ZWD之间的复杂非线性映射关系提供了可能。本研究的目标正是开发一种新颖的深度学习方法,自适应地学习这种映射规律,从而能够在研究区域内任意位置推断出比传统经验模型更精确的ZTD估计值及其不确定性。

二、 研究方法与详细工作流程

本研究的工作流程主要包括四个核心部分:理论基础与数据准备、高斯混合长短时记忆网络(Gaussian Mixture Long Short-Term Memory, GM-LSTM)模型设计与训练、模型性能评估、以及对模型不确定性及有效范围的深入分析。

1. 理论基础与训练/测试数据集准备 首先,论文系统阐述了利用GNSS PPP、ERA5再分析资料射线追踪法以及VMF3地表产品计算ZTD的理论公式,为后续对比奠定基础。 为训练和评估模型,研究选取了欧洲八个不同纬度区域(如葡萄牙贝雅、法国巴黎、德国蒂宾根、瑞典萨拉等)。对于每个区域,从Nevada Geodetic Laboratory(NGL)产品中收集该区域及周边一定范围内的多个GNSS站点的ZTD_GNSS时间序列数据。数据处理包括:仅收集日完整性高于75%的逐小时数据,对少量缺失数据采用样条插值补全;然后通过公式ZWD_GNSS = ZTD_GNSS - ZHD_VMF3计算得到目标变量ZWD_GNSS。 接着,为每个GNSS站点的每个时刻,利用其对应的时间和位置信息,通过第II部分描述的方法计算得到两种模型输入特征:基于ERA5射线追踪法估计的ZWD_ERA5和基于VMF3地表产品估计的ZWD_VMF3。最终,将每日24小时的{ZWD_ERA5, ZWD_VMF3}序列作为输入X,将对应的ZWD_GNSS序列作为目标Y,构建监督训练数据集。 在八个测试区域中,每个区域选择一个中心附近的GNSS站作为测试站,该站的数据不参与训练,用于最终评估模型在未知位置的泛化性能。其余站点数据用于训练。实验分别测试了模型在冬季(水汽稳定)和夏季(水汽活跃)共360个连续小时内的表现。

2. GM-LSTM模型设计与训练流程 本研究提出的核心创新是一个名为高斯混合长短时记忆网络(GM-LSTM)的新型深度神经网络结构及其学习方法。该模型的设计灵感来源于GNSS PPP算法中利用历史状态进行序贯滤波的思想,旨在同时捕获ZWD的时间依赖特征和由大气湍流等引起的空间不确定性。

模型架构:GM-LSTM的网络结构如图2所示。其特征提取器部分由三层堆叠的双向LSTM(Bi-LSTM)层构成,每层LSTM单元的隐藏层维度为2048。Bi-LSTM能够同时学习序列的正向和反向时间特征,有效提取ZWD时间序列的动态模式。在训练时,除最后一层外,对每一层Bi-LSTM输出的隐藏状态应用丢弃法(Dropout,概率0.2)以防止过拟合。

高斯混合输出层:经过特征提取器后,每个时间步的输入X_t被转换为一个4096维的特征向量。为了表征ZWD的概率分布(而非单一数值),模型使用三个独立的全连接层(感知机)将该特征向量转换为一组K个高斯分布的参数:混合系数α_i、均值μ_i和标准差σ_i(i=1,…,K)。为确保混合系数和为1,对相应输出应用Softmax函数。为保证标准差为正且避免训练初期梯度爆炸,作者创新性地为σ_i的输出设计了一种分段指数线性单元(Piecewise Exponential Linear Unit, PELU)激活函数。对于均值μ_i,则根据目标Y的分位数进行偏置项初始化,以稳定训练。论文建议使用K=5个高斯分量,实验表明这足以识别受极端天气影响的ZWD模式。

损失函数与训练策略:模型训练的核心是最小化负对数似然函数(Negative Log-Likelihood),即最大化观测数据(ZWD_GNSS)在模型预测的高斯混合分布下的似然概率。此外,损失函数中加入了一个正则化项 Σ α_i σ_i^2,以鼓励每个高斯分量尽可能“窄”,从而降低模型的不确定性。最终的损失是每日24个时间步损失的总和,通过随时间反向传播(BPTT)算法进行优化。 训练采用Adam优化器,迭代10000次,初始学习率为0.001,每500次迭代后以0.99的因子进行指数衰减。训练完成后,对于研究区域内任意位置,只需输入该位置的{ZWD_ERA5, ZWD_VMF3}时间序列,通过训练好的GM-LSTM进行前向传播(不应用Dropout),即可推断出描述该点ZWD的高斯混合概率密度函数。最终的ZWD估计值ZWD_GM-LSTM取为该混合分布的均值m = Σ α_i μ_i,其不确定性则由该混合分布的标准差s来衡量。最终的ZTD估计值为ZTD_GM-LSTM = ZWD_GM-LSTM + ZHD_VMF3

3. 性能评估实验设计 为全面评估GM-LSTM的性能,研究将其与多种现有方法在八个测试站上进行了对比,包括: * 深度神经网络(DNN):作为深度学习基线,研究使用了一个经过强化的8层、每层256个神经元的DNN,其性能优于文献中报告的简单架构。 * ERA5射线追踪法(ERA5 Ray Tracing):基于ERA5压力层产品计算。 * VMF3地表产品(VMF3):采用双线性插值和垂直调整。 * GACOS在线服务(GACOS):基于迭代对流层分解(ITD)模型和ECMWF气象数据,并使用ITD空间插值器插值到测试点。 所有对比模型均使用了时空一致的NWM输入数据,确保了对比的公平性。 评估指标采用均方根误差(RMSE)、平均偏差误差(MBE)和标准误差(SE)。

4. 有效范围与不确定性分析工作流程 为探究训练所用GNSS站点与研究区域的距离对模型性能的影响(即模型的有效范围),研究以巴黎的OP71站为测试站,设计了五组不同距离范围(0-15 km, 15-50 km, 50-100 km, 100-150 km, 150-200 km)的GNSS站点群作为训练数据,分别训练五个GM-LSTM模型,并比较它们的性能。 为深入理解模型输出的不确定性(标准差s)的物理意义,研究重点分析了在测试期间`标准差出现峰值的时刻。通过结合机场气象终端航空例行天气报告(METAR)、欧洲恶劣天气数据库(ESWD)记录以及E-OBS日降雨量产品等独立气象观测数据,验证了模型不确定性增大与空间异构性降雨事件(即降雨仅影响部分训练站点而非整个区域)之间的关联。此外,还通过对比在均质(所有训练站经历相同强降雨)和异质气象条件下训练的模型性能,进一步验证了GM-LSTM在极端均匀天气下的鲁棒性。

三、 主要研究结果

1. 模型性能对比结果 在涵盖八个不同纬度区域的综合测试中,GM-LSTM模型展现出了最先进的性能: * 整体精度:GM-LSTM推断的ZTD平均RMSE为4.52毫米,达到了毫米级精度。相比之下,DNN、ERA5、VMF3和GACOS的平均RMSE分别为7.77、14.23、8.97和9.13毫米。GM-LSTM相对于这四种模型的平均RMSE提升率(相对提升)分别达到41.78%、68.20%、49.56%和50.43%。 * 季节性表现:在冬季(水汽稳定),GM-LSTM平均RMSE为2.99毫米,提升率分别为45.10%(对DNN)、63.26%(对ERA5)、58.09%(对VMF3)和55.59%(对GACOS)。在夏季(水汽活跃),平均RMSE为6.06毫米,提升率分别为39.99%、70.18%、43.93%和47.42%。这表明GM-LSTM在不同气象条件下均能显著改进估计精度,尤其在夏季水汽活动剧烈时,对ERA5模型的改进尤为突出。 * 偏差与稳定性:GM-LSTM估计的ZTD接近无偏,平均偏差仅为0.05毫米。而ERA5模型存在显著的系统性低估,平均偏差达-9.65毫米(冬季-5.96毫米,夏季-13.33毫米),这与文献报道一致。VMF3和GACOS则存在约3.5-3.7毫米的高估。GM-LSTM的平均标准误差(SE,5.93毫米)也远低于其他模型,表明其估计结果更稳定。

2. 有效范围分析结果 距离影响实验表明,GM-LSTM的性能随着训练站点与研究区域距离的增加而下降,但这种影响并非线性: * 当训练站点在研究区域50公里范围内时,模型能获得相对稳定的高性能,相对于传统模型的提升率接近80%。 * 当距离在50至150公里之间时,性能提升率随距离增加而显著下降。 * 当距离超过150公里时,距离对性能的影响趋于平缓,此时GM-LSTM仍能相对于ERA5、VMF3、GACOS中最好的一个取得约40%的改进。 * 相关性分析显示,仅在夏季,GM-LSTM的RMSE与台站海拔存在统计学显著的相关性,这可能源于高海拔地区夏季水汽活动的不确定性更高。模型性能与经纬度、离海距离无关,显示出良好的地理泛化能力。

3. 模型不确定性分析结果 模型输出的标准差s被证明能有效反映空间异构性气象事件(如局部降雨)引起的不确定性: * 案例分析:研究识别了冬季(巴黎,2021年12月3日16:00)和夏季(布尔戈斯,2022年7月6日14:00)两个标准差出现峰值的时刻。分析发现,这些时刻对应着空间分布不均的降雨事件(例如,巴黎东南部有毛毛雨而西北部无雨;布尔戈斯东部有强雷暴而本地晴朗)。这种气象条件的空间异质性导致用于训练的不同GNSS站点提供了不同的ZWD映射模式,使得GM-LSTM推断出的概率分布呈现多峰特征,没有主导的高斯分量,从而标准差增大。 * 不确定性量化:此时,模型输出的不再是单一值,而是一个概率分布。例如,在布尔戈斯的案例中,模型给出了两个有效的高斯分量,将ZWD的概率空间划分为p(131 ≤ ZWD < 133 mm) = 0.45p(170 ≤ ZWD < 175 mm) = 0.55 两部分,清晰地揭示了两种可能的天气状况。 * 均质天气下的鲁棒性:在气象条件均一的强降雨场景下(如萨拉戈萨地区,所有训练站经历相同降雨),使用近距离均质数据训练的GM-LSTM模型依然能非常精确地跟踪ZTD_GNSS的变化,且全天标准差保持在1毫米以下,显著优于其他所有对比模型。这证明了GM-LSTM在学习和推断均匀极端天气模式方面的强大能力。

四、 研究结论与意义

本研究成功提出并验证了一种基于高斯混合长短时记忆网络(GM-LSTM)的新型对流层延迟估计方法。该方法通过深度学习,自适应地学习了从NWM模型(ERA5, VMF3)估计的天顶湿延迟(ZWD)到GNSS实际观测的ZWD之间的复杂映射规律。一旦训练完成,该模型能够在研究区域内任意位置生成ZWD的高斯混合概率密度分布,从而不仅提供精确的点估计,还能定量评估因气象活动空间异质性带来的估计不确定性。

科学价值与应用价值: 1. 高精度ZTD产品:该方法生成的ZTD产品在精度上达到了当前最先进水平(平均RMSE 4.6毫米),且具备高时空分辨率潜力,可极大促进需要高精度大气延迟改正的领域,如InSAR高精度地表形变监测、GNSS精密单点定位(PPP)收敛与稳定性提升、以及集成水汽(IWV)反演等。 2. 不确定性量化:模型创新性地提供了估计不确定性的度量标准(标准差),该标准被证实与空间异构性降雨事件密切相关。这为气象学家和遥感科学家提供了一个新的工具,用于识别和评估局部气象活动对大地测量信号的影响。 3. 方法论创新:将高斯混合模型与LSTM网络相结合,以概率密度序列而非数值序列来描述目标变量,是深度学习应用于地球物理参数反演领域的一次重要方法论创新。它更好地应对了地球系统固有的不确定性和复杂性。

五、 研究亮点

  1. 性能卓越:在广泛的欧洲多纬度区域测试中,GM-LSTM模型显著超越了包括强化版DNN在内的所有现有主流ZTD估计方法,实现了平均40%-68%的精度提升。
  2. 架构新颖:提出的GM-LSTM网络结构独特,结合了Bi-LSTM的时间序列建模能力和高斯混合模型的概率表示能力,并设计了专门的PELU激活函数和参数初始化策略以确保训练稳定。
  3. 物理意义明确的不确定性估计:模型输出的不确定性并非简单的统计噪声,而是被验证与真实世界空间异构性气象事件(如局部降雨)直接相关,使得模型输出具有可解释的物理意义。
  4. 在均匀极端天气下表现鲁棒:即使面对强降雨等极端天气,只要训练数据气象条件均一,模型仍能保持优异性能,这是传统经验模型所不具备的能力。
  5. 实用性指导:研究明确了模型有效作用范围(建议使用50公里内的GNSS站训练以获得最佳性能),并为实际应用提供了数据准备、训练策略和结果解释的完整工作流程。作者已公开相关数据和源代码,促进了方法的可重复性与进一步发展。

本研究为解决高精度、高分辨率对流层延迟建模这一大地测量与遥感领域的长期挑战,提供了一个强大、新颖且富有洞察力的深度学习解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com