作者与发表信息
本研究的作者为苏悦农、李桐文(通讯作者)和吴静安,均来自中山大学地理科学与工程学院。其中,李桐文和吴静安还隶属于极地环境立体观测与应用教育部重点实验室。该研究成果以题为《Toward Seamless 24-Hour Monitoring of Surface Ozone Across China via Satellite Observations and Sample-Weighted Machine Learning》的论文形式,发表于2026年的《IEEE Transactions on Geoscience and Remote Sensing》期刊第64卷,文章编号为4101413。论文于2025年12月26日在线发布,2026年1月27日正式刊出。
学术背景与研究目的
本研究属于大气环境遥感与人工智能交叉领域,聚焦于中国日益严重的地面臭氧(O3)污染问题。近地面臭氧不仅危害人体健康,影响农作物生长,还是一种温室气体,对气候系统产生影响。近年来,中国臭氧污染呈加剧趋势,对其进行全面、精细化的监测至关重要。
卫星遥感为大范围监测臭氧提供了可能。其中,地球静止轨道卫星(如日本的Himawari-8)能够提供小时级甚至更高时间分辨率的观测数据,有助于捕捉臭氧的日变化特征。然而,当前基于卫星的小时级臭氧估算研究仍面临两大主要挑战:第一,多数研究仅关注白天的臭氧估算(通常为当地时间09:00至16:00),导致夜间臭氧数据缺失。这不仅限制了对臭氧日-夜变化规律的理解,也使得无法评估夜间臭氧污染的健康与生态风险。同时,Himawari-8卫星无法观测中国东经80度以西区域,导致生成的臭氧数据存在地理空白。第二,在使用机器学习方法估算臭氧浓度时,普遍存在对高浓度值的低估现象。由于高浓度臭氧正是污染防控关注的重点,如何改善模型对高值样本的预测性能成为一个亟待解决的关键科学问题。
因此,本研究的核心目标是:生成覆盖中国全境、时空连续的24小时无缝地表臭氧浓度数据集,并有效缓解机器学习模型对高臭氧浓度值的低估问题。 为实现这一目标,研究团队计划分别构建白天和夜间的臭氧反演模型,并融合两者的输出来获得全天候数据;同时,提出一种样本加权(sample-weighted)的机器学习方法来提升对高浓度臭氧的估算精度。
详细研究流程与方法
本研究的工作流程是一个集数据预处理、模型构建、验证评估、数据融合与时空分析于一体的完整框架,主要包括以下几个环节:
第一环节:数据准备与预处理。 研究时段为2021年全年。所使用的数据包括:1)来自中国国家环境监测中心(CNEMC)的约1600个地面站点的小时级臭氧观测数据,作为模型训练与验证的“真值”。经质量控制剔除异常值后,构建了包含约1000万个样本的庞大训练集。2)来自Himawari-8卫星的短波辐射(Shortwave Radiation, SWR)产品数据,包括紫外和短波辐射,作为白天模型的主要输入。其时间分辨率为1小时,空间分辨率为0.05度。3)全球小时级全天空地表温度(GHA-LST)数据集,作为夜间模型的主要输入,提供0.05度分辨率的全球24小时地表温度数据。4)欧洲中期天气预报中心(ECMWF)的ERA5再分析数据,提供温度、湿度、风速、边界层高度等气象参数。5)哥白尼大气监测服务(CAMS)的EAC4再分析数据,提供臭氧前体物甲醛(HCHO)和二氧化氮(NO2)的浓度数据。为确保所有输入数据空间分辨率一致,研究将ERA5(0.25度)和EAC4(0.75度)数据通过双线性插值重采样至0.05度。同时,将EAC4数据的时间分辨率从3小时通过最近邻插值重采样至1小时。最后,将所有卫星数据、辅助数据与地面站点观测数据在空间位置和时间上进行匹配,构建最终的模型训练与评估样本集。
第二环节:构建昼夜分离的反演模型并引入样本加权。 为解决大样本训练时的内存和速度问题,研究选用轻量级梯度提升机(Light Gradient Boosting Machine, LightGBM)作为基础机器学习框架。研究并未采用单一模型,而是针对昼夜不同的主导物理过程,构建了两个独立的LightGBM模型。
白天模型 以Himawari-8的SWR数据为核心输入,因为太阳辐射是驱动臭氧光化学反应的关键因素。模型同时纳入地表温度数据、ERA5气象数据、EAC4前体物数据以及样本的月、日、小时信息作为辅助输入。其函数形式可概括为:O3(白天)= f(白天)(SWR, 地表温度, ERA5, EAC4, 月, 日, 时)。该模型用于估算东经80度以东区域在白天时段(09:00-16:00)的臭氧浓度。
夜间模型 则为了弥补白天模型的不足而构建。由于夜间无太阳辐射数据,且需要填补东经80度以西的白天空缺,研究以全天24小时的地表温度数据作为主要输入。研究表明,利用地表温度与臭氧的关系是进行昼夜臭氧反演的有效途径。该模型的输入包括地表温度、ERA5数据、EAC4数据以及时间信息,其函数形式为:O3(全天)= f(夜间)(地表温度, ERA5, EAC4, 月, 日, 时)。该模型用于完成三项任务:估算全国范围内夜间时段(00:00-08:00及17:00-23:00)的臭氧浓度;估算东经80度以西区域白天时段的臭氧浓度。
样本加权方法 是本研究的创新点之一,旨在解决高值低估问题。研究认为,低估源于训练数据集中高浓度样本与低浓度样本的数量不平衡。为此,研究提出为高值样本分配更高权重,以增强其对模型训练的影响。具体而言,将浓度超过100 µg/m³(相当于中国《环境空气质量标准》中O3日最大8小时平均的一级浓度限值)的样本权重设置为5,其余样本权重为1。该权重值通过敏感性分析确定,并通过LightGBM回归器的“sample_weight”参数实现。
第三环节:模型验证与性能评估。 研究采用了严格的交叉验证(Cross-Validation, CV)策略来评估模型性能,包括样本层面的十折交叉验证(sample-based CV)和站点层面的十折交叉验证(site-based CV)。后者在验证时确保用于测试的站点在空间上与训练站点独立,能更好地检验模型的空间泛化能力。
第四环节:数据融合与臭氧产品生成。 分别运行白天和夜间模型后,需要对两者的输出进行融合以生成最终的无缝24小时数据。具体方案是:在东经80度以东的白天时段,采用白天模型的估算结果;在东经80度以西的白天时段以及全国所有夜间时段,采用夜间模型的估算结果。为了避免两个模型在白天(东经80度附近)拼接处出现不连续,研究采用泊松融合(Poisson image editing)技术对重叠区域的估算结果进行平滑处理,确保空间一致性。
第五环节:时空分析与讨论。 利用生成的2021年中国5公里分辨率24小时臭氧数据集,研究进行了深入的时空分析,包括臭氧浓度的日变化、季节变化规律,统计了臭氧超标天数,并追踪了具体的污染事件案例。此外,研究还讨论了忽略夜间数据对日均值计算造成的偏差、模型的时序泛化能力,并与前人研究进行了对比。
主要研究结果
模型验证性能优异:
生成2021年中国无缝24小时臭氧数据集并揭示时空规律:
研究结论与意义
本研究成功构建了一个融合多源卫星与再分析数据、结合样本加权机器学习方法的框架,生成了2021年中国全境、5公里分辨率、无缝的24小时地表臭氧浓度数据集。其主要贡献和结论包括:
研究亮点
其他有价值内容
研究还展示了具体的污染案例(2021年8月10日凌晨中国东部的臭氧污染爆发过程),通过连续的反演结果动态展示了污染区域的演变,优于离散站点观测的呈现效果。初步分析表明,此次污染事件可能与边界层高度降低、有利于前体物和臭氧向下混合有关。此外,研究也坦诚地讨论了当前框架的局限性,如目前仅应用于单一年份、实现实时监测面临数据延迟挑战、双模型框架略显复杂且可能带来细微的时间不一致性等,为未来研究指明了改进方向。