分享自:

基于机器学习的化学-气候模型臭氧浓度偏差校正与未来预测

期刊:Environ. Sci. Technol.DOI:10.1021/acs.est.5c11992

一份整合机器学习与地球系统模型提升未来臭氧污染预测精度的研究报告

本研究由南京信息工程大学的倪益谦、杨阳、王海龙、王品雅、李可、陈磊、朱佳、李宝杰和廖宏等学者共同完成,相关成果发表于环境科学与技术领域的权威期刊《Environmental Science & Technology》2026年第60卷。

研究的核心目标在于解决当前全球化学-气候模型(Global Chemistry-Climate Models)对未来地表臭氧浓度预测存在的显著偏差问题。臭氧是一种重要的对流层污染物,其浓度超标对人体健康和生态系统构成严重威胁。可靠地预测未来臭氧变化,对于制定有效的空气质量管理和健康风险评估策略至关重要。然而,现有模型(如参与CMIP6的诸多模型)在模拟臭氧的空间分布、浓度大小和变化趋势上存在潜在偏差,尤其是在区域尺度上,这极大地限制了其在实际评估中的应用价值。这些偏差主要源于模型在化学机制、排放清单、沉积过程以及空间分辨率等方面的简化与不确定性。近年来,机器学习(Machine Learning, ML)技术在捕捉复杂非线性关系和时空异质性方面展现出强大能力,已被成功用于改进历史空气质量模拟。但将其系统性应用于未来臭氧预测的偏差校正,仍是一个有待深入探索的领域。因此,本研究的宗旨是:发展一种基于机器学习(具体采用LightGBM算法)的偏差校正方法,对CESM2(Community Earth System Model version 2)模型在关键区域(中国、美国、欧洲)模拟的臭氧浓度进行校准,从而获得更准确、可靠的2020年至2060年未来臭氧变化预测,并量化在不同共享社会经济路径(SSP1-2.6和SSP5-8.5)下,人为排放变化和气候变化对臭氧趋势的各自贡献。

本研究的工作流程系统而严谨,主要包括数据准备、模型配置、机器学习模型构建与训练、偏差校正应用、未来情景模拟与分解分析等步骤。首先,在研究对象的选取上,研究聚焦于中国、美国和欧洲这三个具有全球重要性、且拥有完善环境监测体系和丰富数据资源的区域。用于模型评估和机器学习训练的数据包括:2014-2020年上述三个区域地面监测站的每日地表臭氧观测数据;以及多个CMIP6模型在2015-2019年间的历史模拟臭氧数据,用于评估模型的普遍偏差。研究使用的核心模拟工具是CESM2模型,其大气模块CAM6集成了包含90个物种的MOZART-TS1化学机制,水平分辨率约为0.9°×1.25°。为了分离不同驱动因子的影响,研究设计了四组精巧的敏感性实验,覆盖2020-2060年:SSP126_emi(固定2020年海表温度/海冰,排放遵循SSP1-2.6)、SSP126_all(气候与排放均遵循SSP1-2.6)、SSP585_emi(固定2020年气候,排放遵循SSP5-8.5)和SSP585_all(气候与排放均遵循SSP5-8.5)。所有模拟均针对暖季(4-9月,北半球臭氧污染高峰季)进行分析。

本研究的核心创新在于引入并优化了基于LightGBM的机器学习偏差校正流程。研究并未直接预测臭氧浓度,而是将目标变量设定为观测臭氧浓度与CESM2模拟值之间的偏差。模型输入特征(预测变量)经过严格筛选,最终确定了21个关键变量,包括来自CESM2输出的气象变量(如温度、湿度)、前体物浓度(如NO_x、单萜烯、PAN)和光解速率常数,以及监测站点的空间信息(经纬度)。研究分别为中国、美国和欧洲构建了独立的LightGBM模型。在数据准备阶段,使用2014-2018年的数据作为训练集,2019年的数据作为验证集。模型开发中采用了自动化超参数优化工具Optuna进行调参,并利用SHAP(Shapley Additive exPlanations)值和基尼重要性(Gini-importance)来增强模型的可解释性。性能评估指标包括决定系数(R²)、平均绝对误差(MAE)和均方根误差(RMSE)。验证结果显示,三个区域的模型均表现优异,R²值均高于0.8,MAE约为2-3 μg/m³,表明模型具有很高的预测精度。为了评估模型的空间外推稳健性,研究还采用了基于站点的空间留一法(带缓冲区排除机制)进行验证,取得了约0.8的空间R²,证明了该校正方法良好的泛化能力。最终的偏差校正公式为:O₃_corrected(i,t) = O₃_CESM2(i,t) - B_ML(x_i,t),即从CESM2原始输出中减去机器学习预测的偏差值。

研究取得了一系列重要且细致的结果。首先,对CMIP6多模式集合及CESM2历史模拟的评估证实了模型偏差的普遍性和区域性。CMIP6模型整体上在北半球中纬度地区高估了臭氧浓度。CESM2则显示出更复杂的空间偏差模式:在中国,呈现“东低西高”的偶极型偏差——在污染严重的东部(如华北平原)低估臭氧,而在人为排放较低的西部高估臭氧;在美国和欧洲,CESM2则表现为普遍的高估。这些偏差与模型的化学机制简化、前体物排放表征不准、分辨率不足以及区域传输过程模拟偏差等因素有关。

其次,机器学习偏差校正取得了显著成效。应用训练好的LightGBM模型对2019年的CESM2模拟进行校正后,三个区域臭氧模拟的空间分布与观测的一致性大幅提高。具体而言,在中国,暖季臭氧模拟的空间相关系数从0.2提升至0.8,偏差(以MAE计)减少了约61.2%;美国和欧洲的相关系数分别从0.7和0.4提升至0.9和0.7,偏差分别减少了48.1%和41.3%。通过SHAP分析,研究揭示了驱动模型偏差的关键因子。例如,在中国,NO_x浓度是预测偏差的最重要特征,其非线性效应显著;单萜烯浓度在美国和欧洲的偏差预测中也扮演关键角色。低NO_x和高PAN浓度往往与模型高估臭氧相关,而气象条件如温度和湿度也对偏差有重要贡献。

第三,基于校正后的未来预测揭示了截然不同的臭氧变化情景。在低碳排的SSP1-2.6路径下,2020-206年间,由于人为前体物排放大幅减少,中国、美国和欧洲的暖季平均臭氧浓度均呈现显著下降趋势,分别降低13.5、17.9和13.7 μg/m³。而在高排放高增温的SSP5-8.5路径下,同期臭氧浓度则分别上升9.4、2.0和5.2 μg/m³。分解分析表明,人为排放变化是决定未来臭氧趋势的主导因子。然而,气候变化的影响也不容忽视,且具有显著的空间异质性。在SSP5-8.5情景下,中国东部污染地区出现了强烈的“气候惩罚”(climate penalty)效应,即气候变暖加剧了当地的臭氧污染;而在中国西部、美国和欧洲的大部分地区,气候变化则带来了“气候收益”(climate benefit),有助于降低臭氧浓度。这种差异与温度、湿度变化对不同地区臭氧光化学生产的非线性影响有关。

第四,也是本研究一个非常关键的发现:机器学习校正不仅修正了浓度值和空间分布,甚至逆转了CESM2原始输出中一个潜在的误导性趋势。在SSP1-2.6情景下,未经校正的CESM2预测中国东部臭氧仅有微弱下降甚至略有上升趋势。然而,经过ML校正后,预测显示中国东部臭氧将出现明确的显著下降趋势(-4.0 μg/m³/十年)。研究解释,这一“纠偏”源于模型原本对低NO_x环境下臭氧生成的响应存在偏差(倾向于高估)。随着SSP1-2.6路径下NO_x排放急剧削减,这种系统性偏差的方向发生转变,导致原始模型可能错误地预测了趋势。ML校正通过从历史数据中学到的NO_x与偏差的非线性关系,有效地识别并修正了这一错误。

本研究的结论明确指出,将地球系统模型与机器学习偏差校正技术相结合,能够显著提高未来臭氧污染预测的准确性,为制定更具针对性和有效的区域空气质量管理与气候变化应对策略提供了更可靠的科学依据。研究证实,在低碳发展路径下,严格的排放控制可有效降低未来臭氧污染水平;而在高排放路径下,部分区域将面临气候变化加剧臭氧污染的严峻挑战。因此,协同减排与气候适应策略至关重要。

本研究的亮点突出体现在以下几个方面:1. 方法创新:率先系统地将可解释的机器学习(LightGBM)偏差校正框架应用于化学-气候模型的未来长期臭氧预测,而不仅仅是历史回顾分析。2. 深刻洞察:不仅提升了预测的精度,更重要的是发现并纠正了原始模型在关键区域(中国东部)特定情景(SSP1-2.6)下可能存在的趋势性误判,这具有重要的政策启示意义。3. 精细分解:通过精心设计的敏感性实验,清晰量化了人为排放与气候变化对未来臭氧变化的独立贡献,并揭示了“气候惩罚”与“气候收益”并存的空间分异格局。4. 强可解释性:利用SHAP等工具深入挖掘了影响模型偏差的关键驱动因子(如NO_x、单萜烯),为后续改进CESM2等模型的物理化学过程提供了有价值的诊断线索。

此外,研究也坦诚地指出了其局限性,例如:ML校正主要处理系统偏差,而非直接修正模型物理机制;未来排放(特别是SSP1-2.6下的大幅削减)可能超出训练数据的范围,带来外推不确定性;当前分析聚焦三个重点区域,未来可扩展至观测数据日益丰富的其他地区(如东南亚、印度);气候强迫主要通过海表温度/海冰变化来表征,未完全包含其他外强迫(如气溶胶、土地利用变化)的独立影响。这些也为未来的研究方向指明了道路。这项研究为提升复杂地球系统模型在环境预测中的应用可靠性,提供了一个极具前景且可推广的方法范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com