分享自:

中国二氧化碳排放预测的统计与机器学习模型比较研究

期刊:environmental science and pollution researchDOI:10.1007/s11356-023-30428-5

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


中国二氧化碳排放预测的统计与机器学习模型比较研究

作者及发表信息
本研究由Xiangqian Li(首都经济贸易大学统计学院)与Xiaoxiao Zhang(北京物资学院统计与数据科学学院)合作完成,发表于2023年10月的《Environmental Science and Pollution Research》期刊(卷30,页117485–117502)。研究通过对比统计模型与机器学习模型在二氧化碳(CO₂)排放预测中的性能,提出了适用于中国近实时每日排放预测的最优模型。


学术背景
全球变暖的主要驱动因素是CO₂排放的持续增长,而中国作为全球最大排放国(2021年占全球总量的33%),其减排政策亟需精准的预测工具支持。现有研究多聚焦于年度预测,但年度数据存在样本量有限、延迟性高、无法捕捉短期波动等缺陷。因此,本研究首次将预测频率提升至每日尺度,填补了实时排放监测的空白,旨在为政策制定者提供快速响应依据。

研究基于2020年1月1日至2022年9月30日的1004个中国每日CO₂排放数据点(来源:Carbon Monitor项目),提出三类统计模型(灰色预测GM(1,1)、自回归积分滑动平均ARIMA、季节性ARIMA外生模型SARIMAX)与三类机器学习模型(人工神经网络ANN、随机森林RF、长短期记忆网络LSTM),通过五类评估指标(均方误差MSE、均方根误差RMSE、平均绝对误差MAE、平均绝对百分比误差MAPE、决定系数R²)系统比较其性能。


研究流程与方法

  1. 数据准备与预处理

    • 数据来源:采用Carbon Monitor提供的中国多部门(电力、工业、地面交通等)近实时CO₂排放数据,涵盖COVID-19疫情期间的波动(如2020年初排放骤降)。
    • 预处理:对单变量时间序列数据进行归一化,并按80%-10%-10%划分为训练集、验证集和测试集。数据表现出明显的季节性(每年1月峰值、2月谷值),需通过差分处理非平稳性。
  2. 模型构建与优化

    • 统计模型
      • GM(1,1):基于灰色系统理论,通过一阶累加生成序列(1-AGO)和邻均值序列构建微分方程,适用于小样本预测。
      • ARIMA(0,1,3):通过网格搜索(GridSearch)确定最优参数,结合差分处理非平稳性。
      • SARIMAX(0,1,3):在ARIMA基础上引入外生变量(如季节性因素),以捕捉周期性波动。
    • 机器学习模型
      • ANN:采用三层结构(输入层3节点、隐藏层2×12节点、输出层1节点),使用ReLU激活函数和Adam优化器,训练3000轮次。
      • RF:设置100棵决策树,最大深度20,通过Bootstrap采样和特征随机选择提升泛化能力。
      • LSTM:设计双隐藏层(各50个LSTM单元),利用输入门、遗忘门和输出门机制解决长期依赖问题,通过ModelCheckpoint保存最优权重。
  3. 模型评估
    在独立测试集上计算五类指标:

    • MSE/RMSE:衡量预测值与实际值的偏差平方,值越小精度越高。
    • MAE/MAPE:反映绝对误差及百分比误差,直接体现预测实用性。
    • :评估模型解释方差的能力,越接近1表明拟合度越好。

主要结果
1. 机器学习模型全面优于统计模型
- LSTM表现最佳,MSE低至3.5179×10⁻⁴(GM(1,1)为0.0229),MAPE仅14.83%(GM(1,1)为120.45%),R²达0.9844(统计模型R²均为负值)。
- ANN与RF紧随其后,MSE分别为3.9956×10⁻⁴和5.3638×10⁻⁴,验证了机器学习处理非线性时序的优越性。

  1. 统计模型的局限性

    • GM(1,1)因假设线性增长,预测曲线严重偏离实际波动(图5a);ARIMA/SARIMAX虽能捕捉部分趋势,但无法适应高波动数据(图5b-c)。
  2. LSTM的预测应用
    基于测试集(2022年6月25日–9月30日)的预测结果,外推至2022年底的排放趋势显示与历史数据一致(图6),证实其可用于短期政策模拟。


结论与价值
1. 科学价值
- 首次证明LSTM在每日CO₂排放预测中的显著优势,其通过门控机制有效捕捉复杂时序模式,为环境科学提供了高精度建模工具。
- 揭示了统计模型(如GM(1,1))在长时序、高波动数据中的不适用性,推动方法论革新。

  1. 应用价值
    • 为中国的“2030碳达峰、2060碳中和”目标提供实时数据支持,例如监测经济复苏期间的排放反弹风险。
    • 建议政策领域:推广电动汽车(降低交通排放)、发展可再生能源(减少煤电依赖)、建设绿色机场(航空减排)。

研究亮点
1. 创新性数据:首次使用长达1004天的近实时排放数据集,较传统年度数据显著提升预测时效性。
2. 方法论贡献:系统比较六类模型,明确LSTM为最优解,并公开参数配置(如LSTM的双隐藏层结构)。
3. 政策衔接:提出“预测-政策”联动机制,缩短减排决策响应时间至天级别。

局限与展望
当前研究未纳入GDP、能源消费等外生变量,未来计划扩展为多变量LSTM模型,以进一步提升预测鲁棒性。


(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com