面向中国东南部对流初生检测与临近预报的机器学习模型数据集

分享自：
面向中国东南部对流初生检测与临近预报的机器学习模型数据集

大气科学
地球科学
计算机科学
人工智能
信息科学
期刊:scientific dataDOI:10.1038/s41597-026-06902-3
【点击此处】阅读全文、收藏及针对性提问
关于“用于中国东南部对流初生检测与临近预报的机器学习模型数据集”的学术研究报告
本研究由中国气象局国家气象信息中心的刘玉佳、熊安源、刘娜以及国防科技大学气象海洋学院的李云英、陈子桐共同完成，并以数据描述（Data Descriptor）的形式于2026年发表在《科学数据》（Scientific Data）期刊上。
一、 学术背景与目标
本研究属于大气科学、气象学与人工智能交叉领域，具体聚焦于对流初生（Convective Initiation, CI） 的检测与临近预报。对流初生是指暖湿空气抬升触发对流云初始形成的时刻，通常定义为地基天气雷达首次观测到雷达反射率因子超过35 dBZ的本地生成对流单体的时刻。准确预报CI对于强对流天气（如短时强降水、雷暴大风、冰雹）的预警至关重要，可为防灾减灾提供宝贵的提前时间。
然而，传统的经验方法和数值天气预报（Numerical Weather Prediction, NWP）模型在精确预报CI方面仍面临挑战。近年来，人工智能（AI）技术，特别是机器学习（ML）和深度学习（DL），为CI预报提供了新的可能。AI模型的性能高度依赖于训练数据的质量和规模。构建高质量的CI预报数据集面临两大挑战：一是样本数量，强对流天气属于小概率事件，CI又仅出现在对流单体生命史的初始阶段，导致正样本稀缺；二是样本质量，需要选择能有效反映CI发生发展的特征数据，并提供精确的CI发生位置与演变类别的标签数据。
为解决上述问题，满足AI模型训练的需求，本研究旨在构建一个高质量、高时空分辨率的对流初生数据集，命名为CIDS。其主要目标是：1) 提供覆盖中国东南部地区的密集样本；2) 集成多源观测数据（雷达、卫星）作为特征；3) 基于雷达观测，利用一种改进的算法自动、客观地识别CI并对其进行分类标注；4) 为开发基于AI的CI检测与0-2小时临近预报模型提供基础数据支撑。
二、 详细工作流程
本研究的工作流程主要包括数据源整合、强对流事件采样、CI标签算法开发与实施、特征数据准备以及数据集构建与验证。
1. 数据源与处理 研究区域为中国东南部（104–125°E, 20–40°N），时间范围为2018年至2023年每年3月至9月（强对流高发期）。数据全部来源于中国气象局国家气象信息中心的业务数据库。 * 地面观测：用于识别强对流天气事件。使用了研究区域内12个省份的1008个国家级地面气象站的分钟级降水、风速及人工冰雹记录，定义了强降水（≥20 mm/60 min）、雷暴大风（瞬时风速≥17 m/s且伴有闪电）和冰雹（直径≥2 mm）事件。 * 天气雷达数据：用于生成特征数据和CI标签的“地面实况”。研究区域内最多有157部天气雷达（122部S波段，35部C波段）。雷达数据经过了严格的质量控制，包括噪声滤波、径向干扰识别、地物/海杂波及晴空回波消除（采用模糊逻辑算法和人工检查）。最终通过“最大值”拼图法生成了空间分辨率为0.01°×0.01°、时间分辨率为10分钟的雷达拼图产品。 * 卫星数据：作为CI预报的关键特征数据。使用了风云四号A星（FY-4A）搭载的先进静止轨道辐射成像仪（AGRI）的9个光谱通道数据。数据经过辐射定标和几何校正，并重采样至统一网格。可见光通道（0.65 μm）分辨率为0.005°，短波红外和中波红外通道（1.61, 3.75 μm）为0.02°，其余通道为0.04°。时间分辨率与雷达数据对齐，为10分钟。
2. 强对流事件采样 为最大化收集与CI相关的正样本，研究采用了分级采样策略： * 单站强对流事件（SCE-S）：基于地面站数据，识别出满足上述强天气标准的时段。为了包含负样本并满足连续时间序列预报的需求，将每个SCE-S时段向前扩展2小时、向后扩展1小时。2018-2023年共识别出57,252个SCE-S事件。 * 区域性强对流事件（SCE-R）：为避免时间重叠的SCE-S在数据集中造成重复样本，将所有SCE-S按开始时间排序，并将研究区域内时间上重叠的SCE-S合并为一个SCE-R事件。最终得到829个SCE-R事件，作为数据集样本提取的时间窗口。每个SCE-R事件持续时间从3到411小时不等，平均26.9小时。从这些SCE-R事件中，以10分钟为间隔抽取样本，最终构成了包含136,728个样本的数据集框架。
3. CI标签算法（核心创新方法） 本研究开发了一种基于雷达拼图产品的、动态空间阈值的CI识别与分类算法，是该数据集构建的核心技术。算法流程主要包括以下步骤： * 步骤1：识别对流单体（Convective Storm, CS）。在10分钟间隔、0.01°分辨率的雷达组合反射率（CR）图上，将最大反射率≥35 dBZ的连续区域识别为CS。为避免噪声并确保与卫星数据匹配，设定CS最小覆盖面积为16个网格点（约16 km²）。 * 步骤2：计算CS运动矢量。利用当前时刻与前一时次的雷达CR图像，采用光流法计算每个CS的运动速度矢量。该方法基于雷达回波的拉格朗日连续性假设，能更好地捕捉对流单体的实际传播特征，而非单纯依赖环境风场。 * 步骤3：判定CI。这是算法的关键改进。传统方法使用固定的空间搜索半径（如10-100 km）在前序时间内寻找已有回波。本研究利用步骤2计算出的CS运动矢量，动态估算该CS在前一个10分钟（t-10）和下一个10分钟（t+10）的可能位置。判定逻辑：如果在t-10的雷达图上，估算的前一位置没有CS重叠，则该CS是一个“潜在CI”。为进一步排除雷达杂波等造成的虚假识别，需检查t+10的雷达图上，估算的后一位置是否有CS重叠。若存在，则确认该CI持续存在；若仅出现在一个时次，则被归类为“瞬变回波”并剔除。此步骤有效减少了虚假CI，降低了对人工检查的依赖。 * 步骤4：CI结果的人工检查。尽管经过自动质量控制，某些区域（如由持续频率干扰导致的异常回波）仍可能出现CI假阳性。研究通过分析CI统计分布，发现异常高值区，并辅以人工复查雷达图像，移除有问题的雷达观测数据后重新生成拼图和CI识别结果。 * 步骤5：CI分类。为进一步提供预报价值，算法对识别出的CI进行分类，标注其未来发展趋势。 * 分类步骤：a) 对于已识别的CI，使用光流法追踪其在后续三个10分钟时次（t+10, t+20, t+30）的位置（CS1, CS2, CS3）。b) 若CS1、CS2、CS3中任何一个缺失，则将该CI分类为衰退型（Declining）。c) 若三者均存在，则计算CI与CS1、CS2、CS3之间的面积差（DA）和最大雷达回波强度差（DF）。d) 如果三个时次均满足DA>0且DF>0，则分类为发展型（Developing）；否则为衰退型。
4. 特征数据 CIDS为每个样本提供了丰富的特征数据，旨在为AI模型提供充分的预报信息。 * 雷达特征（10种）：包括组合反射率（CR）、混合扫描反射率（HBR）、2-7公里（每1公里一层）的CAPPI反射率、回波顶高（ET）和垂直积分液态水含量（VIL）。空间分辨率0.01°，时间分辨率10分钟。 * 卫星特征（9个通道）：涵盖了可见光、短波红外、中波红外、水汽和长波红外通道，具体波长见表1。这些通道数据提供了云相态、粒子大小、纹理以及云顶亮温等信息，是CI发生前的重要先兆信号。
5. 数据集记录与存储 CIDS数据集包含829个SCE-R事件对应的136,728个样本。每个样本包含： * 特征数据：以NumPy ‘.npy’格式存储的雷达和卫星二维网格数据，为节省存储压缩为‘.bin’文件。 * 标签数据：分为两种形式。 * CI属性：以ASCII文本格式存储，包含所有CI的覆盖区域（轮廓）、类别（0：衰退，1：发展）以及基本单体属性（面积、轮廓纵横比、中心点、倾斜角、平均/最大/最小雷达回波强度）。 * CI掩膜：以与雷达数据相同分辨率（0.01°）的网格数据存储，像素值1代表发展型CI，2代表衰退型CI，0代表无CI。
三、 主要结果
1. 数据集规模与CI识别统计 通过对829个区域性强对流事件（SCE-R）的分析，CIDS数据集共识别出4,159,491个CI事件。其中，被分类为发展型CI（Developing CI）的有1,789,208个，占总数的43%。这为机器学习模型提供了海量、且经过精细分类的训练和验证样本。
2. CI识别算法的案例验证 通过两个典型案例展示了算法在复杂场景下的有效性。 * 案例一（孤立对流发展）：展示了6个连续时次内38个对流单体，其中16个被识别为CI（12个发展型，4个衰退型）。这些CI均是首次出现≥35 dBz强回波的孤立新生单体，随后发展成强盛单体，符合CI的物理定义。 * 案例二（线状对流系统边缘新生）：在一次长江中下游地区的强天气过程中，雷达图像显示了一个庞大的线状中尺度对流系统。算法成功识别出在该系统外围（而非通过系统移动）新生的CI（52个，其中29个发展型）。这验证了基于光流动态追踪的方法在识别强回波边缘新生CI方面的优势，克服了固定空间阈值方法在此类场景下的困难。
3. CI的时空分布特征 * 空间分布：2018-2023年暖季（3-9月）CI日平均发生频率的空间分布与气候降水分布基本一致，呈现从东南向西北递减的趋势。高值区集中在广东、广西南部沿海，体现了东南季风的影响。在长江以南流域，CI空间分布与降水型态高度吻合，表明该地区暖季降水以对流性降水为主。发展型CI的空间分布特征与所有CI一致，但一些因雷达数据质量问题（如地形影响、频率干扰）导致的局部异常高频率区在发展型CI分布图中基本消失，说明发展型CI标签的质量更高，受非降水回波干扰更小。此外，CI在华北地区的分布特征（如太行山周边高发）与已有利用卫星数据的研究结论相符，间接验证了本数据集CI识别的合理性。 * 日变化：CI发生频率存在显著的日变化。在中国中东部大部分地区，CI发生频率最高值出现在下午。例如，福建东南部呈现单峰型日变化，峰值在15时（北京时间），这与中尺度对流系统（MCS）的日变化一致。在四川盆地，CI频率最高值出现在凌晨4时，次峰值在下午，这与该地区降水日变化特征（午夜峰值和下午次峰）相符。这些合理的日变化规律进一步佐证了CI识别结果的可靠性。
四、 结论与价值
本研究成功构建了首个针对中国东南部地区、面向AI模型训练的高质量、高分辨率对流初生数据集（CIDS）。该数据集不仅提供了长达六年、时间分辨率达10分钟、空间分辨率达公里级的雷达与卫星多通道特征数据，更重要的是，通过引入基于光流动态追踪的改进CI识别与分类算法，生成了精确的、区分发展与否的CI标签。
其科学价值在于：1) 为基于AI的CI检测与临近预报研究提供了标准化的基准数据集，有助于推动该领域的算法比较与模型发展；2) 所采用的CI识别算法框架，特别是动态运动估计替代固定空间阈值的方法，提升了在复杂对流场景（如系统边缘新生）下的识别能力，对改进客观CI识别技术具有方法论意义；3) 数据集中包含的大量发展/衰退型CI样本，为研究控制对流初生后能否发展的环境与云微物理因素提供了宝贵资源。
其应用价值在于：1) 可直接用于训练和测试深度学习模型，实现基于多源观测数据的CI自动检测与0-2小时临近预报；2) 数据集提供的连续时空序列数据，可用于训练雷达回波外推、卫星反演雷达反射率等模型；3) 为中国强对流天气的智能监测预警业务系统的研发提供了关键数据支撑。
五、 研究亮点
数据集的规模与质量：CIDS是目前针对中国区域公开的、样本量最大、时空分辨率最高、且同时提供精细化CI分类标签的AI训练数据集。
创新的CI识别算法：算法核心创新在于采用光流法计算对流单体运动矢量，并以此动态确定搜索范围来判定新生对流，显著提升了对移动风暴系统边缘新生CI的识别能力，并有效减少了虚假识别。
精细化的CI分类：不仅识别CI，还根据其后30分钟的面积和强度演变，将其进一步分类为“发展型”和“衰退型”，这为预报员提供了更具行动指导意义的信息（哪些新生对流更可能加强并产生恶劣天气）。
多源数据深度融合：数据集同步提供了地基雷达拼图产品和静止气象卫星多光谱数据，时空精确匹配，使得AI模型可以同时利用雷达的精确降水结构信息和卫星的云顶先兆信息进行联合学习。
完整的质量控制与验证流程：从原始数据质量控制（雷达杂波去除、人工检查）、到算法设计（引入持续性检验）、再到结果验证（案例、时空分布统计、与气候特征对比），构建了完整的技术链条，确保了数据集的可信度。
六、 其他有价值内容
研究还详细讨论了数据集的使用注意事项和局限性： * 应用场景：提出了两个主要的深度学习应用场景：一是利用历史卫星数据（可结合NWP环境场、地形等）预测未来CI的位置和类别；二是利用连续的雷达/卫星序列数据，学习其时空演变规律以进行预报。 * 数据处理注意：提醒用户注意数据中的特征值（如-32768， -1280， -9）代表特定异常条件，需参考文档处理。雷达数据中包含大量质量控制后的非降水回波值，在AI训练前需进行预处理。 * CI标签的潜在问题：指出雷达数据质量仍是CI识别不确定性的主要来源，特别是在某些小范围区域可能出现因残留非降水回波导致的假阳性CI（尤其是衰退型）。建议用户在采样训练数据时，谨慎使用日频率>20%的局部异常高值区的CI样本，或优先使用发展型CI作为正样本。 * 数据集的季节性局限：由于数据集仅包含暖季（3-9月）样本，而冷暖季对流系统发生发展机制不同，因此该数据集可能不适用于冷季分析，未来需要补充冷季样本以构建全年适用的数据集。
CIDS数据集是一项系统性强、创新点突出、具有重要科学和应用价值的研究工作，为推进人工智能在强对流天气临近预报领域的应用奠定了坚实的数据基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问