这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
该研究的主要作者包括Alban Farchi、Patrick Laloyaux、Massimo Bonavita和Marc Bocquet。Alban Farchi来自法国CEREA实验室,该实验室是巴黎高科(École des Ponts ParisTech)和法国电力公司(EDF R&D)的联合实验室。Patrick Laloyaux和Massimo Bonavita则来自欧洲中期天气预报中心(ECMWF),位于英国雷丁。该研究于2021年7月26日发表在《Quarterly Journal of the Royal Meteorological Society》期刊上。
该研究的主要科学领域是地球科学中的数值天气预报(Numerical Weather Prediction, NWP)和机器学习(Machine Learning, ML)的结合。数值天气预报模型虽然基于已知的物理定律,但由于物理过程的错误表示或未解决的小尺度过程,模型误差仍然存在。近年来,机器学习方法,特别是深度学习(Deep Learning, DL),在多个领域取得了显著成果,如计算机视觉、自然语言处理等。因此,研究者们开始探索如何利用机器学习方法,结合地球观测数据,改进数值天气预报模型。
该研究的背景知识包括数据同化(Data Assimilation, DA)和机器学习的基本原理。数据同化是一种将观测数据与数值模型结合的技术,用于估计系统状态。机器学习则通过训练数据来构建模型,预测系统的动态行为。研究者们提出了一种结合数据同化和机器学习的方法,通过迭代步骤来估计系统状态并学习系统的动态行为,从而构建一个替代模型(Surrogate Model),用于纠正现有模型的误差。
该研究的目标是探讨如何利用稀疏和噪声观测数据,通过标准的深度学习方法来学习基于知识的模型(Knowledge-based Model)的误差,并构建一个混合模型(Hybrid Model),以提高数值天气预报的准确性。
该研究包括以下几个主要步骤:
原始数据同化步骤:首先,研究者们使用原始模型进行数据同化。他们生成了一个观测数据库,包含18条轨迹,每条轨迹代表一个真实模型的模拟结果。观测数据每2小时生成一次,观测操作符由50个随机位置的流函数(Stream Function)的线性插值组成。数据同化使用强约束4D-Var算法(Strong-Constraint 4D-Var Algorithm),通过最小化成本函数来估计系统状态。
机器学习步骤:在数据同化步骤之后,研究者们使用分析增量(Analysis Increments)来训练机器学习模型。他们构建了一个神经网络(Neural Network, NN),用于预测模型误差。训练数据包括分析状态和模型误差的估计值。研究者们测试了不同类型的神经网络,包括全连接网络(Dense Neural Network, DNN)和卷积神经网络(Convolutional Neural Network, CNN),并比较了它们的性能。
校正数据同化步骤:在机器学习步骤之后,研究者们使用混合模型进行校正数据同化。混合模型由原始模型和机器学习模型组成,用于预测系统状态。校正数据同化同样使用4D-Var算法,但这次使用的是混合模型的解析器。
原始数据同化步骤的结果:研究者们发现,使用原始模型进行数据同化时,分析均方根误差(Root-Mean-Square Error, RMSE)为0.24。这表明原始模型在估计系统状态时存在一定的误差。
机器学习步骤的结果:研究者们发现,神经网络能够学习到模型误差的显著部分。混合模型在短期到中期的预报中表现优于原始模型,特别是在3到10天的预报中,混合模型的预报技能(Forecast Skill, FS)显著提高。此外,研究者们还发现,非线性神经网络(如使用ReLU激活函数的网络)比线性神经网络表现更好。
校正数据同化步骤的结果:使用混合模型进行校正数据同化后,分析均方根误差降低了约25%。这表明混合模型在估计系统状态时比原始模型更准确。此外,研究者们还发现,采样周期(Sampling Period)对校正数据同化的结果有显著影响,较短的采样周期能够进一步提高分析的准确性。
该研究的主要结论是,通过结合数据同化和机器学习方法,可以有效地纠正数值天气预报模型中的误差。混合模型在短期到中期的预报中表现优于原始模型,并且在校正数据同化中能够显著提高分析的准确性。该研究为数值天气预报模型的改进提供了一种新的方法,具有重要的科学价值和应用价值。
该研究还探讨了如何通过改进训练数据库的质量来进一步提高机器学习模型的性能。研究者们发现,较短的采样周期和较长的训练轨迹能够显著提高模型的预测能力。此外,研究者们还提出了一些改进分析准确性的方法,如使用更短的采样周期或直接校正模型的趋势(Tendencies)。
该研究为数值天气预报模型的误差纠正提供了一种有效的方法,具有重要的科学意义和实际应用价值。