基于复合LSTM模型的PM2.5浓度预测研究学术报告
一、作者及发表信息
本研究由顾阔(北京信息科技大学信息与通信工程学院)、焦瑞莉(同单位)、薄宇(中国科学院大气物理研究所)、刘帅强(北京清创美科环境科技有限公司)、王立志(中国科学院大气物理研究所)合作完成,发表于《中国环境监测》(*Environmental Monitoring in China*)2023年2月第39卷第1期。
二、学术背景
PM2.5(空气动力学直径≤2.5 μm的颗粒物)污染是雾霾的主要成因,对人体健康危害显著。中国作为工业化快速发展的国家,PM2.5污染问题突出,尽管近年治理措施取得成效,但淄博等重工业城市仍面临严峻挑战。传统PM2.5预测方法分为数值预报模型(如基于大气动力学的高分辨率模拟)和统计模型(如线性回归、神经网络),但前者计算复杂、耗时长,后者存在训练效率低、精度不足的问题。因此,本研究提出一种新型复合机器学习模型——灰色关联度分析(GRA)-改进的完备总体经验模态分解(ICEEMD)-长短期记忆网络(LSTM)模型,旨在提升预测精度与效率,为空气质量管理提供科学支持。
三、研究流程与方法
1. 数据来源与预处理
- 数据来源:选取淄博市2019年19个国控/省控站点的小时级PM2.5浓度、其他污染物(PM10、SO2、NO2、CO、O3)及气象数据(能见度、温度、湿度、风速),总计1,664,400条记录。
- 预处理:采用填补(邻近站点气象数据插补)与去除(异常时段整日剔除)结合的方法,最终保留1,655,470条有效数据,按80%训练集、20%测试集划分。
模型构建与优化
模型对比与验证
四、主要研究结果
1. PM2.5时空分布特征
- 空间差异:淄博市中部丘陵地带PM2.5浓度高于南部山区和北部平原,东部高于西部。最高值站点(锦秋点位,64 μg/m³)是最低值(南麻点位,49 μg/m³)的1.3倍。
- 时间分布:月均浓度呈“U”形,1月最高(106 μg/m³),8月最低(26 μg/m³);冬季污染最重(80 μg/m³),夏季最轻(38 μg/m³)。
五、结论与价值
1. 科学价值
- 提出GRA-ICEEMD-LSTM复合模型,通过多模块协同解决了单一模型在突变值捕捉和计算效率上的瓶颈。
- 揭示了淄博市PM2.5污染的时空异质性及主导影响因素(PM10、CO),为区域污染溯源提供依据。
六、研究亮点
1. 方法创新:首次将ICEEMD信号分解与LSTM结合,有效提升高浓度和突变事件的预测精度。
2. 数据规模:覆盖淄博市多类型站点(城市、乡村、湖区、山区),增强模型普适性。
3. 工程优化:GRA模块减少无关变量,训练时长缩短至2分14秒(原模型4分14秒)。
七、局限与展望
当前模型对极端污染事件的预测仍有不足,未来可结合气象耦合机制或引入注意力机制(Attention)进一步优化。此外,跨区域数据共享可提升模型泛化能力。
(注:文中图表及公式详见原文献,部分数据为简化表述。)