这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
中国二氧化碳排放预测的统计与机器学习模型比较研究
作者及发表信息
本研究由Xiangqian Li(首都经济贸易大学统计学院)与Xiaoxiao Zhang(北京物资学院统计与数据科学学院)合作完成,发表于2023年10月的《Environmental Science and Pollution Research》期刊(卷30,页117485–117502)。研究通过对比统计模型与机器学习模型在二氧化碳(CO₂)排放预测中的性能,提出了适用于中国近实时每日排放预测的最优模型。
学术背景
全球变暖的主要驱动因素是CO₂排放的持续增长,而中国作为全球最大排放国(2021年占全球总量的33%),其减排政策亟需精准的预测工具支持。现有研究多聚焦于年度预测,但年度数据存在样本量有限、延迟性高、无法捕捉短期波动等缺陷。因此,本研究首次将预测频率提升至每日尺度,填补了实时排放监测的空白,旨在为政策制定者提供快速响应依据。
研究基于2020年1月1日至2022年9月30日的1004个中国每日CO₂排放数据点(来源:Carbon Monitor项目),提出三类统计模型(灰色预测GM(1,1)、自回归积分滑动平均ARIMA、季节性ARIMA外生模型SARIMAX)与三类机器学习模型(人工神经网络ANN、随机森林RF、长短期记忆网络LSTM),通过五类评估指标(均方误差MSE、均方根误差RMSE、平均绝对误差MAE、平均绝对百分比误差MAPE、决定系数R²)系统比较其性能。
研究流程与方法
数据准备与预处理
模型构建与优化
模型评估
在独立测试集上计算五类指标:
主要结果
1. 机器学习模型全面优于统计模型:
- LSTM表现最佳,MSE低至3.5179×10⁻⁴(GM(1,1)为0.0229),MAPE仅14.83%(GM(1,1)为120.45%),R²达0.9844(统计模型R²均为负值)。
- ANN与RF紧随其后,MSE分别为3.9956×10⁻⁴和5.3638×10⁻⁴,验证了机器学习处理非线性时序的优越性。
统计模型的局限性:
LSTM的预测应用:
基于测试集(2022年6月25日–9月30日)的预测结果,外推至2022年底的排放趋势显示与历史数据一致(图6),证实其可用于短期政策模拟。
结论与价值
1. 科学价值:
- 首次证明LSTM在每日CO₂排放预测中的显著优势,其通过门控机制有效捕捉复杂时序模式,为环境科学提供了高精度建模工具。
- 揭示了统计模型(如GM(1,1))在长时序、高波动数据中的不适用性,推动方法论革新。
研究亮点
1. 创新性数据:首次使用长达1004天的近实时排放数据集,较传统年度数据显著提升预测时效性。
2. 方法论贡献:系统比较六类模型,明确LSTM为最优解,并公开参数配置(如LSTM的双隐藏层结构)。
3. 政策衔接:提出“预测-政策”联动机制,缩短减排决策响应时间至天级别。
局限与展望
当前研究未纳入GDP、能源消费等外生变量,未来计划扩展为多变量LSTM模型,以进一步提升预测鲁棒性。
(报告字数:约1800字)