近日,一项利用人工智能革新全球气溶胶预报的研究成果在《Nature》期刊上发表。这项由桂柯、张旭涛等来自中国气象科学研究院、国家气象中心等国内外多家研究机构的科学家共同完成的研究,题为“Advancing operational global aerosol forecasting with machine learning”。该研究提出了一个名为AI-GAMFS(机器学习驱动的全球气溶胶-气象学预报系统)的新型预报框架,成功实现了对全球气溶胶光学特性及其组分浓度的快速、精准的5天预报。本文将详细介绍此项研究的背景、方法、关键结果及其重要的科学与应用价值。
气溶胶是悬浮于大气中的微小颗粒物,对地球气候系统具有重要影响。它们通过影响辐射强迫、云微物理过程和大气化学,直接和间接地改变气候模式。同时,气溶胶也是空气质量恶化的主要原因,与呼吸系统、心血管系统等疾病密切相关。因此,准确的气溶胶预报对于空气质量管控、公共健康防护和气候变化减缓至关重要。
然而,气溶胶预报的复杂性远超传统天气预报。这源于气溶胶来源的多样性(如沙尘、海盐、黑碳、有机物、硫酸盐等)、复杂的物理化学转化过程,以及与气象系统之间多尺度、非线性的相互作用。当前主流的物理化学数值预报模型(如欧洲中期天气预报中心的哥白尼大气监测服务,Copernicus Atmosphere Monitoring Service, CAMS;以及美国宇航局的全球地球观测系统前向处理系统,Global Earth Observing System Forward Processing, GEOS-FP)需要耦合气象模式与大气化学输送模式,并求解数千个化学和微物理过程方程,导致计算成本极高,限制了预报的时效性和更新频率。尽管近期机器学习在天气预报领域展现出巨大潜力,但专门针对全球气溶胶及其组分进行集成预报的机器学习模型尚不成熟,特别是能够稳健模拟气溶胶与气象交互作用并实现业务化运行的模型仍属空白。
基于此,本研究旨在开发一个全新的、数据驱动的全球气溶胶-气象一体化预报系统。核心目标包括:1)构建一个能够高效模拟复杂气溶胶-气象耦合过程的机器学习模型;2)提供覆盖全球、长达5天、时间分辨率为3小时的气溶胶光学性质(如气溶胶光学厚度,Aerosol Optical Depth, AOD)和关键组分(硫酸盐、沙尘、黑碳、有机碳、海盐)表面浓度的确定性预报;3)在预报精度和计算效率上超越或匹敌现有的主流物理模型和区域沙尘模型;4)将模型部署为业务化系统,为沙尘暴、野火烟雾等气溶胶污染事件的预警提供有力工具。
本研究构建的AI-GAMFS系统其技术流程主要包括数据准备、模型架构设计、训练策略、预报策略制定以及多维度评估五个核心环节。
1. 数据准备与处理: 模型训练、验证和评估依赖于长时间序列的再分析数据、业务模式分析场以及独立的观测数据。 * 训练/验证/测试数据: 研究团队采用了NASA的现代研究与应用再分析第2版(Modern-Era Retrospective analysis for Research and Applications, version 2, MERRA-2)再分析数据。该数据集覆盖了1980年至2023年,空间分辨率约为50公里(0.5°×0.625°),提供了包括12种气溶胶变量(如AOD、沙尘AOD、硫酸盐质量浓度等)、6种地面气象变量和4种高空气象变量在内的54个目标变量。数据被划分为:1980-2021年用于模型训练,2022年用于内部测试(调优),2023年数据则作为评估的基准之一。 * 初始场与对比数据: 为了实现业务化预报,AI-GAMFS使用NASA的GEOS-FP业务分析产品作为输入初始场。为了与传统方法对比,研究者还收集了CAMS的全球气溶胶预报产品、多个区域沙尘模式(如芬兰气象研究所的SILAM、中国气象局的CUACE/Dust、日本气象厅的MASINGAR、韩国气象厅的ADAM3)的预报产品,以及GEOS-FP自身的业务预报数据。 * 独立验证数据: 为了确保评估的客观性,研究广泛采用了全球气溶胶机器人网络(Aerosol Robotic Network, AERONET)、中国气溶胶遥感观测网(Chinese Aerosol Remote Sensing Network, CARSNET)的气溶胶光学厚度观测数据,以及美国IMPROVE网络、EPA-CSN网络和中国大气成分观测网(China Atmospheric Watch Network, CAWNET)的气溶胶组分(黑碳、有机碳、硫酸盐)浓度地面观测数据。
2. 模型架构与设计: AI-GAMFS的核心是一个深度神经网络,其架构包含三个主要模块,旨在捕获和预测气溶胶与气象场的时空演变。 * 立方体嵌入(Cube Embedding): 该模块将输入的三维时空数据(时间×变量通道×纬度×经度)进行下采样和特征提取,转化为高维的特征张量,为后续处理做准备。 * 视觉变换器(Vision Transformer, ViT): 这是模型的核心。ViT利用多头自注意力机制(Multi-headed Self-Attention)来全局性地理解气溶胶与气象变量之间复杂的相互作用关系。它能识别并关联全球不同区域、不同变量之间的依赖模式,这是准确模拟气溶胶远距离输送和与天气系统耦合的关键。 * 立方体解嵌(Cube Unembedding): 该模块通过反卷积和上采样技术,将ViT处理后的高维特征张量重建回原始的纬经度空间分辨率,输出下一个预报时刻的54个变量空间场。模型中还加入了跳跃连接(Skip Connection),以确保预报的准确性和细节保真度。
3. 模型训练与策略: 研究团队采用了一种创新的“接力预报”(Relay Forecasting)策略来平衡预报精度和误差累积问题。 * 基础模型训练: 首先,研究者训练了四个具有不同预报步长的基础AI-GAMFS模型,分别是3小时、6小时、9小时和12小时步长模型。每个模型结构相同,包含约12亿个参数,在8块L40 GPU上使用MERRA-2数据训练80个轮次。 * 接力预报策略: 直接使用单一的3小时模型进行多步滚动预报会导致误差快速累积。为了解决这个问题,研究者采用了多模型接力策略。对于任意一个预报时效(例如54小时),系统会优先调用步长最长的模型(12小时模型)进行多次迭代,剩余的时间再由步长较短的模型接力完成。这种策略显著减少了总的迭代次数,从而有效抑制了长期预报中的误差增长。通过比较不同接力组合(如仅用3小时单模型、3-6小时接力、3-6-9小时接力、3-6-9-12小时接力)在测试集上的表现,最终确定使用3-6-9-12小时四模型接力策略作为最终的业务模型。
4. 业务化实现与计算效率: 完成预训练和接力连接后,最终集成的AI-GAMFS模型可以在单块L40 GPU上,以GEOS-FP实时分析场为输入,仅需约39秒即可生成全球范围的5天预报(40个时间步长)。相比之下,传统的GEOS-FP物理模型完成一次5天预报需要4-6小时。AI-GAMFS实现了超过360倍的计算加速,这是其能够实现高频率(每日8次)、准实时业务化运行的关键。
5. 评估流程: 研究进行了全面、多层次、多维度的评估,以验证AI-GAMFS的性能。 * 模型策略评估: 使用2022年的MERRA-2数据作为基准,比较了不同接力策略在所有54个目标变量上的预报精度(空间相关系数R和纬度加权均方根误差RMSE),验证了所选接力策略的有效性。 * 全球AOD和沙尘AOD评估: 以2023年数据为例,将业务化AI-GAMFS的5天AOD和沙尘AOD预报与业界领先的CAMS预报进行对比。评估基准包括MERRA-2再分析数据和全球AERONET站点观测。此外,还利用中国CARSNET数据补充评估了在中国区域的预报能力。 * 区域沙尘事件评估: 针对沙尘预报这一重要且具挑战性的任务,将AI-GAMFS在东亚区域的沙尘AOD和沙尘表面质量浓度预报,与多个专业的物理沙尘模型(CAMS, FMI-SILAM, CMA-CUACE/Dust, JMA-MASINGAR, KMA-ADAM3)进行对比,评估基准为MERRA-2。 * 气溶胶组分预报评估: 将AI-GAMFS对全部12种气溶胶变量(包括光学厚度和表面浓度)的预报,与GEOS-FP的业务预报进行细致对比。评估基准包括MERRA-2、AERONET/CARSNET光学观测,以及美国IMPROVE/EPA-CSN网络和中国CAWNET网络的组分浓度地面实测数据。 * 案例研究: 选取了2023年4月中国北方特大沙尘暴、2024年7月全球气溶胶分布等具体案例,直观展示了AI-GAMFS在捕捉气溶胶生消、传输和组分演变细节方面的能力,并与GEOS-FP的预报结果进行空间对比。
研究结果表明,AI-GAMFS在多个方面表现卓越,在精度和效率上均展现出显著优势。
1. 显著提升的全球气溶胶光学厚度预报能力: 相比于CAMS,业务化AI-GAMFS在5天预报期内对全球AOD和沙尘AOD的预报精度持续更优。以2023年评估为例,在前2天(0-48小时),AI-GAMFS对AOD和沙尘AOD的平均空间相关系数(R)分别比CAMS提高了11.5%和13.8%,平均均方根误差(RMSE)则降低了22.3%和37.3%。即便到了第5天(120小时),其RMSE仍比CAMS分别低约11.3%和25.2%。这一优势在基于全球AERONET和中国CARSNET独立观测的评估中得到了进一步确认。AI-GAMFS在全球超过60%的AERONET站点和近86%的站点上,其AOD和沙尘AOD的预报RMSE分别低于CAMS。
2. 卓越的区域沙尘预报性能: 在东亚这一沙尘高影响区,AI-GAMFS的表现全面超越了所有参与对比的物理沙尘模型。例如,在72小时预报时效,AI-GAMFS沙尘AOD的空间R值相对于FMI-SILAM、CAMS、JMA-MASINGAR、CMA-CUACE/Dust和KMA-ADAM3分别提升了12.0%、21.4%、34.2%、105.1%和199.7%。其沙尘表面质量浓度的RMSE值也显著低于其他模型。对2023年4月华北特大沙尘暴的案例研究表明,AI-GAMFS不仅能准确再现沙尘的传输路径和影响范围,还能提前3-4天预报出戈壁沙漠的沙尘排放增强信号,这是区域沙尘模型通常难以捕捉的特征。
3. 全面且精准的气溶胶组分预报: AI-GAMFS能够同时提供多种气溶胶组分(硫酸盐、黑碳、有机碳、海盐)的光学厚度和表面浓度预报。与GEOS-FP相比,在大多数预报时效(特别是1-3天及更长预报期),AI-GAMFS对绝大多数气溶胶组分的预报R值更高、RMSE值更低。例如,在美国IMPROVE网络站点的独立评估中,AI-GAMFS对美国地区黑碳、有机碳和硫酸盐表面浓度的5天日平均预报RMSE,相比GEOS-FP分别降低了64.4-86.2%、74.5-88.3%和42.2-61.0%。在中国CAWNET网络的评估中也显示出类似的优势。这表明AI-GAMFS在预报人为排放(如硫酸盐)和生物质燃烧(如黑碳和有机碳)相关的污染事件方面具有突出能力。
4. 对关键气象变量的可靠模拟是成功的基础: 虽然AI-GAMFS在某些气象变量(如风速)的预报精度上略逊于GEOS-FP,但它显著改善了对气溶胶生命史至关重要的关键气象变量(如比湿、降水)的预报。这些改进直接支撑了其更优的气溶胶模拟能力。模型能够准确刻画驱动沙尘远距离跨大西洋输送、非洲和南美洲野火烟雾演变的天气形势。
5. 无与伦比的计算效率: 如前所述,AI-GAMFS完成一次全球5天预报仅需约39秒,计算速度比GEOS-FP物理模型快360倍以上。这使其能够以3小时间隔高频次更新预报,提供更及时的预警信息,满足了业务化应用对时效性的严苛要求。
本研究成功开发并验证了首个数据驱动的、业务化运行的全球气溶胶-气象一体化预报系统AI-GAMFS。该系统通过深度学习技术,从长达42年的历史再分析数据中学习气溶胶与气象之间复杂的耦合规律,实现了对全球气溶胶多组分、高时空分辨率、快速、精准的5天确定性预报。
科学价值: 该研究证明了数据驱动方法在解决复杂地球系统科学问题上的巨大潜力。AI-GAMFS不仅是一个实用的预报工具,也为理解气溶胶-气候-天气相互作用提供了一个新的、高效的研究平台。它展示了如何将机器学习从单纯的“黑箱”预测,发展为能够捕捉并再现复杂物理化学过程的有效手段。
应用价值: AI-GAMFS在预报精度和计算效率上的双重突破,为空气质量管理和环境灾害预警带来了革命性的变化。其快速的预报能力使得对沙尘暴、野火烟雾等突发性高影响污染事件的早期预警成为可能,为政府部门制定应急响应措施、公众采取健康防护提供了更长的提前量。同时,精确的组分预报有助于更科学地评估不同污染源(如工业排放、生物质燃烧)的贡献,支持精准的污染溯源和防控。
尽管AI-GAMFS取得了显著成功,研究者也指出了未来可能的改进方向。例如,可以通过纳入多时间步滚动输入来增强时间连续性;整合动态人为排放清单以更好地反映长期趋势和排放变化;扩大训练数据集的规模和时空分辨率以进一步提升对海盐等受关键气象变量影响较大的组分的预报能力。最重要的方向是发展“物理-机器学习”混合框架,将大气动力学和物理化学约束作为归纳偏置嵌入模型,确保预报结果严格符合地球系统基本原理,迈向可解释、更可靠的下一代智能环境预报系统。