本文介绍了一项由Kyuhee Shin、Kwonil Kim和Gyuwon Lee共同完成的研究,题为《Supervised Learning-Based Prediction of Lightning Probability in the Warm Season》,发表于2024年9月28日的《Remote Sensing》期刊。该研究旨在通过机器学习技术提高闪电预测的准确性,特别是在暖季期间。闪电预测对于减少其对人类生命、基础设施和自然环境的危害至关重要。然而,由于对流风暴的快速发展和空间限制,传统的数值天气预报(Numerical Weather Prediction, NWP)模型在闪电预测方面存在较大挑战。
闪电通常伴随强对流天气(如冰雹和暴雨)发生,对社会和经济造成重大损失。为了准确预测闪电,许多研究尝试识别与闪电活动相关的气象指数,如对流有效位能(Convective Available Potential Energy, CAPE)、抬升指数(Lifted Index, LI)等。然而,这些指数通常依赖于复杂的算法来处理高分辨率NWP模型生成的大量数据。近年来,机器学习(Machine Learning, ML)技术的兴起为解决这一问题提供了新的途径。ML无需对数据分布进行假设,能够高效处理“大数据”,因此在闪电预测中展现出巨大潜力。
本研究的目标是开发一种基于随机森林(Random Forest, RF)算法的闪电预测模型,命名为LightningRF。该模型旨在为预报员提供实时概率预测,帮助其在6小时内的短时预报中提高闪电预测的准确性。
LightningRF模型基于随机森林算法,使用闪电发生作为响应变量,NWP模型生成的特征参数作为预测变量。研究的主要流程包括以下几个步骤:
数据准备:研究使用了韩国气象厅(Korea Meteorological Administration, KMA)提供的闪电观测数据作为响应变量。闪电数据包括云地闪(Cloud-to-Ground Flashes, CGs)和云间闪(Cloud-to-Cloud Flashes, CCs)。预测变量则来自韩国局部分析与预报系统(Korea Local Analysis and Prediction System, KLAPS)的高分辨率NWP数据,包括温度、湿度、风速等基本气象参数,以及与闪电相关的热力学和动力学参数(如CAPE、LI、Sweat指数等)。
模型训练与优化:由于闪电数据的高度不平衡(闪电发生的网格点远少于未发生的网格点),研究采用了欠采样技术来平衡数据集。随机森林模型的超参数(如树的数量和预测变量的数量)通过网格搜索和分层10折交叉验证进行优化。最终,模型选择了200棵树和4个预测变量的组合。
特征重要性分析:研究通过平均减少不纯度(Mean Decrease Impurity, MDI)评估了各特征的重要性。结果显示,Showalter指数(Sho)是闪电预测中最重要的变量,其次是云顶相关变量(如云顶温度、云顶高度等)。
模型验证与应用:研究通过分层10折交叉验证评估了模型的性能。结果表明,LightningRF在闪电预测中表现出较高的准确性,特别是在1小时内的短时预报中。模型还应用于KLAPS的分析和预报场,展示了其在闪电发生区域的高概率预测能力。
特征重要性:Showalter指数(Sho)在闪电预测中具有最高的特征重要性,表明其在诊断大气不稳定性方面的关键作用。云顶相关变量(如云顶温度、云顶高度等)也表现出较高的预测能力。
模型验证:通过分层10折交叉验证,LightningRF在闪电预测中的表现良好。当概率阈值为46%时,模型的临界成功指数(Critical Success Index, CSI)达到峰值0.896,表明其在闪电预测中的高准确性。
应用案例:研究将LightningRF应用于KLAPS的分析和预报场,展示了其在闪电发生区域的高概率预测能力。特别是在对流系统中,模型能够准确预测闪电的发生区域,尽管随着预报时间的增加,预测区域的范围有所扩大。
本研究开发的LightningRF模型通过结合高分辨率NWP数据和机器学习技术,显著提高了闪电预测的准确性。该模型在1小时内的短时预报中表现出色,能够为预报员提供实时概率预测,帮助其更好地应对闪电相关的灾害。此外,研究还揭示了Showalter指数和云顶相关变量在闪电预测中的重要性,为未来的闪电预测研究提供了新的方向。
尽管LightningRF模型在闪电预测中表现出色,但仍存在一些局限性。例如,模型对NWP数据的依赖性较强,若NWP模型对大气条件的模拟不准确,可能会影响闪电预测的准确性。未来的研究可以结合高分辨率遥感数据(如雷达反射率、卫星亮度温度等)来进一步提高短时预测的准确性。此外,如何定义闪电事件的时间窗口也是一个值得探讨的问题。
本研究为闪电预测提供了新的技术手段,具有重要的科学价值和实际应用意义。