基于风云四号卫星协作与机器学习估算中国近地表臭氧浓度及影响因素分析

分享自：
基于风云四号卫星协作与机器学习估算中国近地表臭氧浓度及影响因素分析

工程学
信息科学
期刊:Atmospheric Pollution ResearchDOI:10.1016/j.apr.2025.102538
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：基于风云四号卫星协同观测与机器学习方法对中国近地面臭氧浓度进行估算及影响因子分析
本报告旨在向广大科研同行介绍一篇题为“基于风云四号A/B星协同观测与机器学习方法估算中国24小时近地面臭氧浓度及影响因子分析”的原创性研究论文。该论文由王逸轩（兰州大学大气科学学院/中国气象局干旱气象研究所）、陈斌（兰州大学大气科学学院/通讯作者）、冶恰、赵琳、宋志浩（均来自兰州大学）共同完成，发表于《Atmospheric Pollution Research》期刊，并于2025年4月在线发表。
一、研究背景与学术目标
近地面臭氧（O₃）作为一种关键的痕量气体，对空气质量、人类健康、农作物产量和生态系统均有重要影响。近年来，臭氧已成为中国继PM₂.₅之后又一个突出的区域性大气污染问题，尤其是在长江三角洲、京津冀、珠三角和成渝等主要城市群。传统的臭氧监测依赖于地面站点，但其空间分布不均，尤其在偏远地区存在监测空白，无法满足高时空分辨率的研究需求。卫星遥感技术提供了空间连续的数据，但以往的研究多利用极轨卫星（如MODIS、OMI、TROPOMI）获取对流层臭氧柱总量，这些数据与近地面臭氧浓度之间的直接相关性存在区域差异，且时间分辨率有限（通常为每日一次），难以捕捉臭氧的日内动态变化。
中国新一代静止气象卫星风云四号A星（FY-4A）和B星（FY-4B）搭载的先进静止轨道辐射成像仪（AGRI），能够提供高时间分辨率（全圆盘15分钟）和高空间分辨率（可见光0.5-1公里，红外2-4公里）的观测数据，其覆盖范围可完全覆盖中国全境。利用卫星在大气顶的辐射（Top-Of-Atmosphere Radiation, TOAR）数据，理论上可以反演包含地表和大气信息的信号，为估算近地面臭氧浓度提供了新的可能。机器学习方法，尤其是能够捕捉复杂非线性关系的算法，在利用多源数据进行污染物估算方面展现出独特优势。
因此，本研究旨在填补以下研究空白：1) 首次联合利用FY-4A和FY-4B两颗静止卫星的TOAR数据，构建高时空分辨率（小时级，0.04°网格）的中国全境近地面臭氧浓度估算模型；2) 系统比较在晴空、有云和全天候（All-sky）三种天空状况下机器学习模型的性能；3) 识别与臭氧浓度高度相关的卫星通道；4) 量化并深入分析关键气象驱动因子对臭氧浓度的影响机制。其核心科学目标是建立一个精准、连续的中国近地面臭氧浓度数据集，并揭示其与气象条件的非线性依赖关系，从而为臭氧污染预报和防控策略制定提供科学依据。
二、详细研究流程与方法
本研究遵循一个系统、严谨的数据处理与建模分析流程，主要包括以下几个关键步骤：
第一步：数据收集与预处理。 研究时段为2022年6月1日至2023年5月31日。数据源包括：1) 臭氧地面观测数据：从中国环境监测总站获取全国站点的小时和日最大8小时滑动平均（MDA8）臭氧浓度数据，并依据国家标准进行质量控制和校准。2) 卫星TOAR及云产品数据：从国家卫星气象中心获取FY-4A和FY-4B AGRI的L1级TOAR数据以及L2级云检测（CLM）产品。云产品将像元分类为“云”、“可能云”、“可能晴空”和“晴空”，用于后续的天空状况筛选。3) 辅助数据：包括来自欧洲中期天气预报中心第五代再分析资料（ERA5-Land）的气象因子（10米风速、风向、边界层高度、2米气温、相对湿度、地表气压），以及地理数据（土地利用类型，LUCC）。所有辅助数据的空间分辨率通过双线性插值方法统一到与TOAR数据相同的0.04°网格上。对于每个网格，若包含多个地面监测站点，则取站点臭氧浓度的平均值作为该网格的“真值”，并与该网格的TOAR及气象数据进行匹配，最终构建了庞大的样本数据集。
第二步：关键卫星通道筛选与数据集构建。 为了最大化利用卫星信息，研究首先分析了FY-4A（14个通道）和FY-4B（15个通道）各通道TOAR数据与地面臭氧浓度的关联性。通过计算皮尔逊相关系数（衡量线性相关）和将单通道TOAR输入极限树（Extra Tree， ET）模型得到的R²值（衡量非线性相关），筛选出与臭氧浓度强相关的通道。结果表明，FY-4A的第7、8、11、12、13通道以及FY-4B的第7、8、12、13、14通道与臭氧浓度的相关性最强。基于此，研究构建了三种数据源组合：仅用FY-4A的5个通道、仅用FY-4B的5个通道、联合使用两者筛选出的通道（实际为5个代表性通道）。随后，利用云产品，对每种数据源组合分别构建了三种天空状况下的数据集：晴空数据（Clear-sky， CS）、有云数据（Cloudy， CL）和全天候数据（All-sky， AS，即包含晴空和有云的所有数据）。最终，共构建了9个不同的数据集，样本量从约449万（晴空）到约1106万（全天候）不等，并相应地为每个数据集建立了ET模型，命名为如AS4A-O3、CS4B-O3、CL4A/B-O3等。
第三步：机器学习建模与验证。 本研究选择极限树作为核心机器学习算法。ET是一种基于决策树的集成学习算法，通过在节点分裂时随机选择特征和特征值，增强了模型的泛化能力并减轻了过拟合问题，被认为在处理高维、非线性数据时优于传统的随机森林模型。研究利用构建的9个数据集分别训练了9个ET模型。模型以筛选后的TOAR通道数据、气象因子（温度、湿度、边界层高度等）、地理信息和时空变量（如经纬度、小时、季节）作为输入特征，以小时臭氧浓度作为预测目标。采用十折交叉验证方法来评估模型的稳健性和性能，主要评价指标包括决定系数（R²）、均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）。
第四部分：模型结果分析与时空分布制图。 在确定最优模型后，研究进行了多维度深入分析：1) 模型间比较：比较9个模型在整体精度、特征重要性等方面的差异。2) 最优模型验证：对选出的最优模型（AS4A/B-O3）进行时间尺度（逐小时、分季节）和空间尺度（分区域、分昼夜）的交叉验证，评估其在不同条件下的表现。3) 外部数据对比：将模型估算结果与已有的“中国追踪空气污染”（Tracking Air Pollution, TAP）臭氧数据集进行对比，验证模型可靠性。4) 臭氧时空分布绘制：利用最优模型，生成了中国全境24小时逐小时、高空间分辨率的近地面臭氧浓度分布图，并分析了其日变化和空间分布特征。
第五步：气象影响因子机理解析。 这是本研究的另一大重点。研究综合运用了皮尔逊/斯皮尔曼相关分析和偏依赖图（Partial Dependency Plot， PDP）两种方法。PDP是一种模型可解释性工具，能够在控制其他特征不变的情况下，可视化某个特定特征（如温度）对模型预测结果（臭氧浓度）的边际效应，从而揭示其非线性影响关系。研究详细分析了温度、相对湿度、边界层高度等关键气象因子与臭氧浓度的关系，并进一步探讨了2022年夏季中国四大城市群臭氧浓度异常与同期气象要素异常之间的关联。
三、主要研究结果
1. 模型性能与比较结果： - 通道筛选结果：确认FY-4A的通道7、8、11-13和FY-4B的通道7、8、12-14与近地面臭氧浓度高度相关，这些通道主要位于近红外和红外波段，与臭氧分子的吸收特性相符。 - 最优模型选择：9个ET模型的对比表明，基于全天候数据（All-sky）的模型整体性能最佳。尽管增加有云数据会略微引入噪声，但大幅增加了训练样本的时空连续性，反而使模型更加稳健。其中，联合使用FY-4A和FY-4B数据的AS4A/B-O3模型表现最为出色，其十折交叉验证的R²达到0.91，RMSE和MAE分别为13.05 μg/m³和8.83 μg/m³。该模型性能优于仅使用晴空或有云数据的模型，也优于仅使用单颗卫星数据的模型。 - 特征重要性分析：在AS4A/B-O3模型中，TOAR数据的特征重要性得分最高，验证了卫星辐射信息的核心贡献。在气象因子中，边界层高度（BLH）的重要性最为突出，其次是气温（TM）和相对湿度（RH）。值得注意的是，在晴空模型中TOAR的贡献度远高于全天候模型，而在全天候模型中，TM和RH的重要性得到增强，补偿了TOAR贡献度的相对下降。 - 时空验证结果：AS4A/B-O3模型在时间尺度上，夜间（UTC 00:00-07:00）的估算精度普遍高于白天，这可能与白天光化学过程复杂、局地排放影响剧烈有关。季节尺度上，秋季模型性能最佳（R²=0.92），春季相对较低。在空间尺度上，模型在京津冀（BTH）和长三角（YRD）城市群的性能最好（平均R²接近0.9），在成渝（CY）和珠三角（PRD）地区略低，可能与复杂地形（CY）和海陆风影响（PRD）有关。与TAP数据集的对比显示，AS4A/B-O3模型的估算序列与观测值的变化趋势高度一致，且在部分地区表现出更高的相似性。
2. 臭氧浓度时空分布特征： 利用AS4A/B-O3模型生成了中国夏季小时级臭氧浓度分布图。结果显示，臭氧浓度存在明显的日变化规律：从夜间到早晨（UTC 00:00-08:00），随着太阳辐射增强和气温升高，光化学反应加剧，臭氧浓度在全国范围内逐渐累积并升高，且东部地区浓度普遍高于西北部。在午后（UTC 08:00-15:00），由于辐射减弱和NO对臭氧的滴定作用，浓度开始下降。傍晚（UTC 15:00-20:00）边界层高度降低，可能导致高空臭氧向下混合，浓度下降趋势减缓。夜间（UTC 20:00以后），光化学反应停止，NO滴定作用持续，臭氧浓度进一步降低。空间上，高浓度臭氧主要聚集在京津冀、长三角、珠三角、成渝等城市群区域，并呈现出向外围扩散的态势。
3. 气象影响因子机制解析结果： - 关键因子识别：相关分析和PDP结果共同揭示，相对湿度（RH）和气温（TM）是驱动臭氧浓度变化最核心的气象因子。臭氧浓度与RH呈显著负相关，与TM在适宜范围内呈正相关。 - 非线性阈值效应：PDP清晰地展示了关键气象因子的非线性影响及阈值效应： - 相对湿度：当RH低于60%时，臭氧浓度保持高位且变化不大；一旦RH超过60%，臭氧浓度随湿度增加而急剧下降。低湿环境有利于光化学反应进行。 - 气温：影响可分为三个阶段：在0-20°C范围内，臭氧浓度相对稳定；在20-35°C范围内，臭氧浓度随温度升高显著上升，这是光化学反应加速的典型区间；当温度超过35°C后，臭氧浓度增速放缓甚至出现抑制，可能与植物气孔关闭导致生物源挥发性有机物排放减少有关。 - 边界层高度：在BLH低于1500米时，臭氧浓度随BLH升高而增加，这可能因为较高的BLH有利于污染物垂直混合稀释，但也可能将高空富含臭氧的空气带入近地面，其净效应表现为正相关。 - 2022年夏季臭氧异常归因：对比2022年夏季与2014-2021年同期平均发现，BTH、CY、YRD地区2022年夏季臭氧浓度峰值更高。这主要归因于：白天异常高温和低湿促进了光化学臭氧生成；同时，夜间异常低风速和较低的边界层高度抑制了污染物的扩散，导致近地面臭氧积累。而在PRD地区，由于2022年夏季气温略低于常年且湿度偏高，不利于臭氧生成，因此峰值浓度低于往年平均。
四、研究结论与价值
本研究成功构建了一套基于中国风云四号A/B双星协同观测、结合极限树机器学习算法的高精度近地面臭氧浓度估算模型体系。主要结论如下： 1. 技术方法可行：首次证明了联合利用FY-4A/B静止卫星的TOAR数据，能够有效估算中国全境高时空分辨率的近地面臭氧浓度，且基于“全天候”数据的模型性能最优。 2. 模型性能优越：所发展的AS4A/B-O3模型估算精度高（R²=0.91），能够可靠地反映臭氧浓度的时空分布格局和日变化规律。 3. 影响机制明晰：通过可解释机器学习手段，定量揭示了气温（20-35°C）和相对湿度（<60%）是控制臭氧浓度的关键气象阈值，并阐明了2022年夏季主要城市群臭氧浓度异常升高的气象驱动机制。
本研究的科学价值在于：为利用国产静止气象卫星进行高时空分辨率大气环境监测提供了创新性方法范例；生成了覆盖中国全境、时空连续的高质量近地面臭氧浓度数据集，弥补了地面站点观测的不足；深化了对气象条件（特别是温、湿度的非线性阈值效应）影响近地面臭氧生成与累积的机理认识。
其应用价值显著：所生成的臭氧浓度数据集可为大气化学、气候变化、公共健康等领域的相关研究提供关键数据支撑；研究揭示的关键气象驱动因子和阈值可为环境管理部门开展臭氧污染潜势预报、预警和制定精准防控策略（例如，在高温低湿天气提前采取减排措施）提供科学依据。
五、研究亮点
数据源的创新性：首次联合使用中国风云四号A星和B星两颗静止卫星的协同观测数据进行全国范围臭氧估算，充分发挥了静止卫星高时间分辨率的优势，实现了对臭氧日变化过程的高频捕捉。
建模策略的先进性：系统比较了晴空、有云和全天候三种天空状况下的建模效果，明确提出并验证了利用“全天候”数据构建模型可获得更优性能和更好时空连续性的结论，对后续卫星遥感应用具有重要指导意义。
方法学的深度结合：不仅实现了高精度估算，还深度结合了机器学习可解释性技术，特别是偏依赖图，定量化、可视化地揭示了气象因子对臭氧浓度的复杂非线性影响和关键阈值，将“黑箱”模型预测与物理解释紧密结合，使研究结论更具说服力和洞察力。
研究结果的实用性：研究不仅产出了数据产品，更聚焦中国典型城市群的臭氧污染问题，对2022年夏季异常臭氧污染进行了精细化的气象归因分析，直接回应了当前环境管理的迫切需求。
这项研究是一项集数据、算法、机理与应用于一体的高水平工作，标志着我国在利用自主卫星资料进行高精度环境监测与归因分析方面取得了重要进展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问