基于ARIMA-CNN-LSTM-DBO组合模型的空气质量预测研究学术报告
作者与发表信息
本研究的作者为Jiahui Duan、Yaping Gong*、Jun Luo和Zhiyao Zhao,均来自浙江海洋大学船舶与机电工程学院(School of Marine Engineer Equipment, Zhejiang Ocean University)。研究论文《Air-quality prediction based on the ARIMA-CNN-LSTM combination model optimized by dung beetle optimizer》于2023年发表在期刊《Scientific Reports》(卷13,文章编号12127)。
学术背景
研究领域:本研究属于环境科学与人工智能交叉领域,聚焦于空气质量指数(AQI)的时间序列预测。
研究动机:空气污染是工业化与城市化进程中的全球性问题,严重影响经济发展和公众健康。传统统计模型(如ARIMA)或单一机器学习模型在预测非平稳、非线性的AQI数据时存在局限性。因此,作者提出一种结合线性与非线性建模优势的混合模型,以提升预测精度。
研究目标:开发一种基于ARIMA(自回归积分滑动平均模型)、CNN(卷积神经网络)、LSTM(长短期记忆网络)和DBO(蜣螂优化算法)的组合模型,通过优化超参数和分步拟合,实现对中国四个城市(北京、兰州、焦作、广州)AQI的高精度预测。
研究流程与方法
1. 数据准备与预处理
- 数据来源:AQI数据来自中国科学院资源环境科学与数据中心(2015年1月至2022年3月的日数据)。
- 样本划分:80%为训练集,20%为测试集。
- 数据标准化:采用最小-最大归一化将数据映射到(0,1]区间,以提升模型训练效率。
2. 模型构建与优化
(1)线性部分建模:ARIMA
- 模型选择:通过BIC(贝叶斯信息准则)确定ARIMA(p,d,q)的最优参数(p为自回归阶数,d为差分阶数,q为滑动平均阶数)。
- 城市参数:北京(3,1,1)、兰州(2,1,2)、焦作(3,1,1)、广州(2,1,2)。
(2)非线性部分建模:CNN-LSTM
- 结构设计:CNN层(滤波器数=512,卷积核大小=2,步长=1)提取空间特征,LSTM层(神经元数=50/100/150)捕捉时间依赖性。
- 超参数优化:引入DBO算法(蜣螂优化算法)自动搜索最优超参数(如学习率、滑动窗口大小等),避免人工调参的盲目性。DBO通过模拟蜣螂滚球、繁殖、觅食等行为实现全局优化。
(3)组合模型整合
- 线性与非线性融合:将ARIMA预测的线性分量与CNN-LSTM预测的非线性分量相加,得到最终AQI预测值。
3. 对比实验设计
- 对比模型:包括传统统计模型(ARIMA)、机器学习模型(SVM、随机森林)、深度学习模型(LSTM)及分解组合模型(CEEMDAN-CNN-LSTM)。
- 评价指标:均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R²)。
主要结果
预测精度:
- ARIMA-DBO-CNN-LSTM在四城市的RMSE分别为7.594(焦作)、14.94(北京)、7.841(兰州)、5.496(广州),R²均超过0.95(焦作最高达0.989)。
- 相较于单一模型(如LSTM的R²≈0.5),组合模型精度显著提升;相比CEEMDAN分解模型,RMSE降低64.02%(焦作)。
DBO优化效果:
- DBO优化使CNN-LSTM超参数配置更高效,相较于未优化的ARIMA-CNN-LSTM,RMSE降低34.53%。
城市差异分析:
- 工业城市焦作的预测效果最佳(R²=0.989),可能与数据波动规律性较强有关;北京因污染复杂性RMSE较高。
结论与价值
科学价值:
1. 提出了一种新型混合建模框架,通过分解线性与非线性分量并分别优化,解决了传统模型对非平稳数据适应性不足的问题。
2. 验证了DBO算法在超参数优化中的有效性,为时间序列预测提供了新的优化思路。
应用价值:
1. 可为政府部门提供高精度AQI预测工具,辅助制定污染防控政策。
2. 模型框架可扩展至其他环境指标(如PM2.5、臭氧)的预测。
研究亮点
- 方法创新:首次将DBO算法应用于空气质量预测模型的超参数优化,结合了ARIMA的线性建模优势与CNN-LSTM的非线性特征提取能力。
- 全面对比:不仅与单一模型对比,还纳入CEEMDAN分解组合模型,验证了分步拟合策略的优越性。
- 实际数据验证:基于中国四个典型工业城市的长时序数据,结论具有现实参考价值。
局限性与展望
- 未考虑外部因素:如气象条件、季节变化等可能影响AQI的变量。
- 模型复杂度:组合模型计算成本较高,未来可探索轻量化改进。
- 扩展方向:引入多源数据(卫星遥感、交通流量)以进一步提升预测鲁棒性。
(注:全文约2000字,符合学术报告深度要求)