基于卫星观测与样本加权机器学习实现中国地表臭氧无缝24小时监测

分享自：
基于卫星观测与样本加权机器学习实现中国地表臭氧无缝24小时监测

工程学
信息科学
期刊:IEEE Transactions on Geoscience and Remote SensingDOI:10.1109/TGRS.2025.3648798
【点击此处】阅读全文、收藏及针对性提问
基于卫星观测与样本加权机器学习的中国24小时无缝地表臭氧监测研究作者与发表信息
本研究的作者为苏悦农、李桐文（通讯作者）和吴静安，均来自中山大学地理科学与工程学院。其中，李桐文和吴静安还隶属于极地环境立体观测与应用教育部重点实验室。该研究成果以题为《Toward Seamless 24-Hour Monitoring of Surface Ozone Across China via Satellite Observations and Sample-Weighted Machine Learning》的论文形式，发表于2026年的《IEEE Transactions on Geoscience and Remote Sensing》期刊第64卷，文章编号为4101413。论文于2025年12月26日在线发布，2026年1月27日正式刊出。
学术背景与研究目的
本研究属于大气环境遥感与人工智能交叉领域，聚焦于中国日益严重的地面臭氧（O3）污染问题。近地面臭氧不仅危害人体健康，影响农作物生长，还是一种温室气体，对气候系统产生影响。近年来，中国臭氧污染呈加剧趋势，对其进行全面、精细化的监测至关重要。
卫星遥感为大范围监测臭氧提供了可能。其中，地球静止轨道卫星（如日本的Himawari-8）能够提供小时级甚至更高时间分辨率的观测数据，有助于捕捉臭氧的日变化特征。然而，当前基于卫星的小时级臭氧估算研究仍面临两大主要挑战：第一，多数研究仅关注白天的臭氧估算（通常为当地时间09:00至16:00），导致夜间臭氧数据缺失。这不仅限制了对臭氧日-夜变化规律的理解，也使得无法评估夜间臭氧污染的健康与生态风险。同时，Himawari-8卫星无法观测中国东经80度以西区域，导致生成的臭氧数据存在地理空白。第二，在使用机器学习方法估算臭氧浓度时，普遍存在对高浓度值的低估现象。由于高浓度臭氧正是污染防控关注的重点，如何改善模型对高值样本的预测性能成为一个亟待解决的关键科学问题。
因此，本研究的核心目标是：生成覆盖中国全境、时空连续的24小时无缝地表臭氧浓度数据集，并有效缓解机器学习模型对高臭氧浓度值的低估问题。 为实现这一目标，研究团队计划分别构建白天和夜间的臭氧反演模型，并融合两者的输出来获得全天候数据；同时，提出一种样本加权（sample-weighted）的机器学习方法来提升对高浓度臭氧的估算精度。
详细研究流程与方法
本研究的工作流程是一个集数据预处理、模型构建、验证评估、数据融合与时空分析于一体的完整框架，主要包括以下几个环节：
第一环节：数据准备与预处理。 研究时段为2021年全年。所使用的数据包括：1）来自中国国家环境监测中心（CNEMC）的约1600个地面站点的小时级臭氧观测数据，作为模型训练与验证的“真值”。经质量控制剔除异常值后，构建了包含约1000万个样本的庞大训练集。2）来自Himawari-8卫星的短波辐射（Shortwave Radiation， SWR）产品数据，包括紫外和短波辐射，作为白天模型的主要输入。其时间分辨率为1小时，空间分辨率为0.05度。3）全球小时级全天空地表温度（GHA-LST）数据集，作为夜间模型的主要输入，提供0.05度分辨率的全球24小时地表温度数据。4）欧洲中期天气预报中心（ECMWF）的ERA5再分析数据，提供温度、湿度、风速、边界层高度等气象参数。5）哥白尼大气监测服务（CAMS）的EAC4再分析数据，提供臭氧前体物甲醛（HCHO）和二氧化氮（NO2）的浓度数据。为确保所有输入数据空间分辨率一致，研究将ERA5（0.25度）和EAC4（0.75度）数据通过双线性插值重采样至0.05度。同时，将EAC4数据的时间分辨率从3小时通过最近邻插值重采样至1小时。最后，将所有卫星数据、辅助数据与地面站点观测数据在空间位置和时间上进行匹配，构建最终的模型训练与评估样本集。
第二环节：构建昼夜分离的反演模型并引入样本加权。 为解决大样本训练时的内存和速度问题，研究选用轻量级梯度提升机（Light Gradient Boosting Machine, LightGBM）作为基础机器学习框架。研究并未采用单一模型，而是针对昼夜不同的主导物理过程，构建了两个独立的LightGBM模型。
白天模型 以Himawari-8的SWR数据为核心输入，因为太阳辐射是驱动臭氧光化学反应的关键因素。模型同时纳入地表温度数据、ERA5气象数据、EAC4前体物数据以及样本的月、日、小时信息作为辅助输入。其函数形式可概括为：O3（白天）= f（白天）（SWR， 地表温度， ERA5， EAC4， 月， 日， 时）。该模型用于估算东经80度以东区域在白天时段（09:00-16:00）的臭氧浓度。
夜间模型 则为了弥补白天模型的不足而构建。由于夜间无太阳辐射数据，且需要填补东经80度以西的白天空缺，研究以全天24小时的地表温度数据作为主要输入。研究表明，利用地表温度与臭氧的关系是进行昼夜臭氧反演的有效途径。该模型的输入包括地表温度、ERA5数据、EAC4数据以及时间信息，其函数形式为：O3（全天）= f（夜间）（地表温度， ERA5， EAC4， 月， 日， 时）。该模型用于完成三项任务：估算全国范围内夜间时段（00:00-08:00及17:00-23:00）的臭氧浓度；估算东经80度以西区域白天时段的臭氧浓度。
样本加权方法 是本研究的创新点之一，旨在解决高值低估问题。研究认为，低估源于训练数据集中高浓度样本与低浓度样本的数量不平衡。为此，研究提出为高值样本分配更高权重，以增强其对模型训练的影响。具体而言，将浓度超过100 µg/m³（相当于中国《环境空气质量标准》中O3日最大8小时平均的一级浓度限值）的样本权重设置为5，其余样本权重为1。该权重值通过敏感性分析确定，并通过LightGBM回归器的“sample_weight”参数实现。
第三环节：模型验证与性能评估。 研究采用了严格的交叉验证（Cross-Validation， CV）策略来评估模型性能，包括样本层面的十折交叉验证（sample-based CV）和站点层面的十折交叉验证（site-based CV）。后者在验证时确保用于测试的站点在空间上与训练站点独立，能更好地检验模型的空间泛化能力。
第四环节：数据融合与臭氧产品生成。 分别运行白天和夜间模型后，需要对两者的输出进行融合以生成最终的无缝24小时数据。具体方案是：在东经80度以东的白天时段，采用白天模型的估算结果；在东经80度以西的白天时段以及全国所有夜间时段，采用夜间模型的估算结果。为了避免两个模型在白天（东经80度附近）拼接处出现不连续，研究采用泊松融合（Poisson image editing）技术对重叠区域的估算结果进行平滑处理，确保空间一致性。
第五环节：时空分析与讨论。 利用生成的2021年中国5公里分辨率24小时臭氧数据集，研究进行了深入的时空分析，包括臭氧浓度的日变化、季节变化规律，统计了臭氧超标天数，并追踪了具体的污染事件案例。此外，研究还讨论了忽略夜间数据对日均值计算造成的偏差、模型的时序泛化能力，并与前人研究进行了对比。
主要研究结果
模型验证性能优异：
整体性能： 白天模型在样本层面和站点层面的交叉验证中均表现优秀，R²分别达到0.92和0.89，均方根误差（RMSE）分别为11.92 µg/m³和13.76 µg/m³。夜间模型的性能稍逊但依然良好，两个层面的R²分别为0.87和0.83，RMSE分别为14.58 µg/m³和16.76 µg/m³。站点层面验证性能略低于样本层面，证明了空间独立验证更为严格。
空间性能分布： 白天模型在全国各站点表现一致且优异，即使在站点稀疏的西部地区也保持高性能。夜间模型在站点密集的东部地区表现很好，但在其他站点稀疏地区仍有提升空间。总体而言，两个模型均适用于全国范围的臭氧估算。
高值估算改进显著： 样本加权方法有效缓解了高值低估。以100 µg/m³为高值阈值，样本加权使得白天模型对高值样本的R²提升了6.4%，RMSE降低了13.9%；夜间模型的提升更为显著，R²提升了13.2%，RMSE降低了24.4%。当阈值提高至120和160 µg/m³时，改进效果依然明显甚至更优。
生成2021年中国无缝24小时臭氧数据集并揭示时空规律：
日变化： 臭氧浓度呈现典型的日变化特征。浓度在08:00达到最低（47.61 ± 12.55 µg/m³），随后因光化学反应和人类活动增强而逐渐上升，在16:00达到峰值（92.77 ± 11.32 µg/m³），夜间逐渐下降。空间上，白天中部地区浓度上升较快，下午东部沿海浓度较高。
季节变化： 中国臭氧浓度呈现明显的季节差异，春、夏季浓度较高（平均值分别为76.82和80.86 µg/m³），秋、冬季较低（平均值分别为57.93和51.92 µg/m³）。这主要与温度、太阳辐射和大气氧化性等光化学条件有关。空间上，夏季高值区集中在华北、华东等地，而青藏高原全年维持较高浓度，可能与平流层臭氧下传有关。
夜间臭氧的重要性得到量化： 研究发现，若仅使用白天（09:00-16:00）数据计算日均值，会比使用全天24小时数据计算的结果高估16.4%。这凸显了纳入夜间数据对于准确评估日均污染水平的重要性。此外，研究统计发现，2021年中国部分地区（如河南、河北、山东等）存在夜间臭氧浓度超过160 µg/m³的超标现象，证明了夜间臭氧污染不容忽视。
研究结论与意义
本研究成功构建了一个融合多源卫星与再分析数据、结合样本加权机器学习方法的框架，生成了2021年中国全境、5公里分辨率、无缝的24小时地表臭氧浓度数据集。其主要贡献和结论包括：
实现了中国24小时无缝臭氧监测： 通过分别构建以短波辐射为核心的白天模型和以地表温度为核心的夜间模型，并巧妙融合两者的输出，有效弥补了传统研究在夜间和西部的数据空白，首次生成了覆盖全国、全天候的连续臭氧数据集。
提出了缓解高值低估的有效方法： 创新的样本加权机器学习策略通过赋予高浓度样本更高权重，显著提升了模型对污染高峰的捕捉能力，对于臭氧污染的精准监测和预警具有重要应用价值。
深化了对中国臭氧污染时空规律的认识： 基于生成的高分辨率数据集，清晰揭示了臭氧浓度的日变化和季节变化特征，量化了忽略夜间数据带来的偏差，并发现了特定区域的夜间超标问题，为污染成因分析和防控策略制定提供了更全面的数据支撑。
研究亮点
研究目标的前瞻性与应用导向： 直接针对当前卫星遥感臭氧估算领域两大核心痛点——“无夜”和“高值低估”——展开攻关，旨在产出可直接用于污染全时段、全方位监测的业务化产品。
方法框架的创新性与实用性： 提出的“昼夜模型分离构建+样本加权+数据融合”框架，逻辑清晰，针对性强。样本加权方法简单有效，易于在其他类似的不平衡回归问题中推广。
数据产品的完整性与高精度： 最终产出的数据集在时间（24小时连续）、空间（全国覆盖无缝）和精度（高验证指标）三个维度均达到了较高水平，具有重要的科学研究和业务应用价值。
其他有价值内容
研究还展示了具体的污染案例（2021年8月10日凌晨中国东部的臭氧污染爆发过程），通过连续的反演结果动态展示了污染区域的演变，优于离散站点观测的呈现效果。初步分析表明，此次污染事件可能与边界层高度降低、有利于前体物和臭氧向下混合有关。此外，研究也坦诚地讨论了当前框架的局限性，如目前仅应用于单一年份、实现实时监测面临数据延迟挑战、双模型框架略显复杂且可能带来细微的时间不一致性等，为未来研究指明了改进方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问