本研究由武汉大学的王元、袁强强(通讯作者)、朱立晔以及张良培共同完成,发表于2022年的《Geoscience Frontiers》期刊。
本研究属于环境科学与遥感技术交叉领域,旨在解决中国近地面臭氧(O₃)污染监测中高时空分辨率数据缺失的问题。近地面臭氧是一种对人体健康和生态系统有害的主要空气污染物。近年来,随着中国光化学污染的加剧,迫切需要高时空分辨率的产品来深入理解其形成机制。现有基于数据融合的估算方法(如利用化学传输模型输出、再分析数据和遥感观测)通常只能提供较粗的空间(如10公里)或时间(如每日)分辨率数据。日本葵花8号(Himawari-8)气象卫星搭载的先进葵花成像仪(AHI)能够提供高时间频率(小时级)和较高空间分辨率(2公里)的热红外波段亮温数据,这为高分辨率臭氧估算提供了新的可能。因此,本研究的目标是开发一个全新的框架,利用AHI的多热红外波段亮温数据,结合气象和地表辅助数据,估算中国区域(新疆和西藏除外)每小时、2公里分辨率的近地面臭氧浓度。考虑到臭氧浓度的空间异质性,本研究创新性地提出了一种基于分类提升(CatBoost)的自适应地理局部建模方案。
本研究的工作流程主要包括数据准备、模型构建与验证三个核心部分,具体步骤如下: 首先,在数据准备阶段,研究收集并处理了2017年至2019年期间的多源数据。核心数据是Himawari-8 AHI传感器在多个热红外波段(包括臭氧吸收峰9.6微米波段及其他辅助波段)的每小时2公里分辨率亮温产品。辅助数据包括欧洲中期天气预报中心(ECMWF)的ERA5-Land再分析数据集提供的同期气象变量(如2米气温、2米露点温度、10米风速、总蒸发量),以及MODIS的16天合成500米分辨率归一化植被指数(NDVI)产品。地面真值数据来自中国环境监测总站(CNEMC)提供的同期全国范围小时级近地面臭氧浓度原位监测数据,覆盖了超过1500个站点。在预处理环节,研究利用AHI的白天云产品(L2CLP)对亮温数据进行了云过滤,仅保留晴空像元。同时,将ERA5-Land和MODIS NDVI数据通过反距离权重和双线性插值方法重采样至与AHI数据一致的2公里空间分辨率。随后,进行数据匹配,将网格化的遥感、再分析数据与点位监测数据在时空上进行对齐。考虑到气象条件对污染物的影响并非瞬时,匹配时使气象数据的时间比臭氧监测和卫星观测时间提前一小时。NDVI数据则与半个月时间窗口内的其他数据进行匹配。最终,落在同一2公里网格内的所有地面监测值被平均,以代表该网格的臭氧浓度,形成用于模型训练和验证的“匹配网格”样本集。
其次,在模型构建阶段,本研究最大的创新点是提出了一个名为SGLBoost(自适应地理局部提升)的新算法。该算法旨在克服传统全局建模忽略空间异质性、而经典地理局部建模(如地理加权回归)又可能因站点分布不均导致“分区边界效应”且计算开销大的问题。SGLBoost的核心是一个自适应的局部样本选择策略与CatBoost机器学习算法的结合。对于待估算的每个网格点(i, j),模型并非使用全部样本,而是根据其周围区域地面站点的分布密度,自适应地确定用于训练局部模型的邻近“匹配网格”数量。具体通过一个与局部站点密度成反比的函数来计算,确保在站点稀疏区域使用更多邻近样本以减少边界效应,在站点密集区域使用较少但更相关的样本以保证精度。确定样本后,针对该网格点,使用选出的局部样本单独训练一个CatBoost模型。CatBoost是一种基于梯度提升决策树的高效算法,擅长处理类别特征且抗过拟合能力强,适合进行大量并行的局部建模。每个局部模型的输入特征包括:该网格点的AHI多波段亮温、提前一小时的气象变量、NDVI值以及时间信息(年积日和小时)。模型输出即为该网格点该小时的臭氧浓度估算值。通过这种方式,SGLBoost为研究区域内每个时空位置“量身定制”了一个估算模型。
最后,在验证与分析阶段,研究采用了两种5折交叉验证(CV)策略来全面评估模型性能。空间交叉验证(2017-2019年):将所有匹配网格随机分为5折,轮流用其中4折训练,1折验证,以评估模型的空间估算精度。历史空间交叉验证(2019年):用2017-2018年数据训练模型,用2019年数据验证,以评估模型的时空预测能力。验证指标包括决定系数(R²)、均方根误差(RMSE)和相对百分比误差(RPE)。研究还将SGLBoost与多种广泛应用的传统机器学习算法(如极端梯度提升XGBoost、随机森林RF等)以及近期中国区域的相关研究进行了性能对比。此外,研究还对不同小时、不同季节的估算结果进行了验证,并生成了空间分布图以评估其合理性。
本研究取得了一系列重要结果。在整体性能上,SGLBoost模型表现优异。空间交叉验证的R²/RMSE达到0.85⁄19.041 µg/m³,历史空间交叉验证的R²/RMSE为0.72⁄25.112 µg/m³。这表明模型具有很高的空间估算精度和良好的时空外推预测能力。与基线CatBoost及其他机器学习方法(XGBoost, LightGBM, RF, ERT)相比,SGLBoost在两项验证中的R²均显著领先(分别高出0.07-0.12和0.03-0.05)。与近期中国区域的其他臭氧估算研究相比,SGLBoost在保持更高估算精度的同时,提供了前所未有的高时空分辨率(小时级、2公里)产品。研究还发现,即使不使用气象变量,仅凭热红外亮温数据也能获得可接受的估算结果(R²约0.79),但加入气象数据后模型稳健性显著提升。在小时和季节尺度上,模型性能存在变化。白天的估算精度通常高于早晨和傍晚;季节上,秋季(SON)和春季(MAM)的精度较高,冬季(DJF)较低,这受臭氧本身浓度水平、气象条件复杂度和可用样本数量共同影响。对全国1417个匹配网格的逐点验证显示,超过80%的网格点R²大于0.8,RMSE小于22 µg/m³,表明模型在全国大部分地区都具有可靠的估算能力,且在人口密集的中部、珠三角、长三角地区表现更优。
对估算结果的空间分布分析表明,SGLBoost产生的臭氧浓度图具有连续的空间格局,未出现明显的分区边界效应,证明了自适应局部策略的有效性。小时序列图清晰展示了臭氧浓度从上午到下午随光化学反应增强而升高的日变化过程,峰值通常出现在午后。季节平均图则准确反映了中国近地面臭氧浓度的典型空间分布特征:夏季(JJA)浓度最高,尤其在中部地区;冬季(DJJ)浓度最低;春季(MAM)由于植被自然排放VOCs等因素,背景臭氧浓度有所升高;秋季(SON)高值区则向东南部转移。年际变化图(2017-2019)显示,中国南部部分省份(如湖北、湖南、江西)的臭氧浓度呈现明显的上升趋势,这为制定污染控制政策提供了重要依据。
本研究得出结论,成功开发了一个基于Himawari-8卫星数据的高时空分辨率近地面臭氧估算框架。所提出的SGLBoost模型通过自适应地理局部建模,有效解决了臭氧空间异质性带来的挑战,在估算精度上显著优于传统全局或固定窗口的局部模型。该框架能够生成中国区域(除新疆、西藏)2017-2019年每小时、2公里分辨率的连续臭氧浓度数据集,其精度和分辨率均优于现有同类产品。这项研究的科学价值在于,首次实现了利用静止气象卫星热红外数据对中国近地面臭氧进行如此高分辨率的持续监测,为深入探究臭氧的形成机制、传输过程和时空演化规律提供了前所未有的数据支持。其应用价值体现在,可为环境管理部门提供精细化的污染分布和变化信息,助力精准治污和健康影响评估,同时服务于大气化学、气候变化等相关领域的科学研究。
本研究的亮点突出体现在以下几个方面:1. 方法创新:提出了全新的SGLBoost自适应地理局部建模框架,巧妙平衡了模型局部适应性与计算可行性,避免了边界效应,是机器学习与地理空间分析的成功结合。2. 数据产品创新:生成了中国首个小时级、2公里分辨率的近地面臭氧浓度数据集,填补了高时空分辨率臭氧监测产品的空白。3. 技术验证充分:采用了严格的空间和历史空间交叉验证,并与多种主流方法及已有研究进行对比,全面证明了模型的优越性和可靠性。4. 多维度分析深入:不仅给出了整体精度,还从小时、季节、空间网格、年际变化等多个维度对结果进行了深入分析和验证,充分展示了数据产品的实用价值。尽管该框架目前仅能提供白天的臭氧估算(受限于夜间云检测产品),且对臭氧化学机制的探讨尚不深入,但它无疑为基于遥感技术的高分辨率大气成分监测开辟了一条新路径,具有重要的里程碑意义。未来的工作可以致力于融合更多数据源以实现全天候监测,并耦合化学机制模型进行归因分析。