中国二氧化碳排放预测的统计与机器学习模型比较研究

分享自：
中国二氧化碳排放预测的统计与机器学习模型比较研究

化学
工程学
期刊:environmental science and pollution researchDOI:10.1007/s11356-023-30428-5
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
中国二氧化碳排放预测的统计与机器学习模型比较研究
作者及发表信息
 本研究由Xiangqian Li（首都经济贸易大学统计学院）与Xiaoxiao Zhang（北京物资学院统计与数据科学学院）合作完成，发表于2023年10月的《Environmental Science and Pollution Research》期刊（卷30，页117485–117502）。研究通过对比统计模型与机器学习模型在二氧化碳（CO₂）排放预测中的性能，提出了适用于中国近实时每日排放预测的最优模型。
学术背景
 全球变暖的主要驱动因素是CO₂排放的持续增长，而中国作为全球最大排放国（2021年占全球总量的33%），其减排政策亟需精准的预测工具支持。现有研究多聚焦于年度预测，但年度数据存在样本量有限、延迟性高、无法捕捉短期波动等缺陷。因此，本研究首次将预测频率提升至每日尺度，填补了实时排放监测的空白，旨在为政策制定者提供快速响应依据。
研究基于2020年1月1日至2022年9月30日的1004个中国每日CO₂排放数据点（来源：Carbon Monitor项目），提出三类统计模型（灰色预测GM(1,1)、自回归积分滑动平均ARIMA、季节性ARIMA外生模型SARIMAX）与三类机器学习模型（人工神经网络ANN、随机森林RF、长短期记忆网络LSTM），通过五类评估指标（均方误差MSE、均方根误差RMSE、平均绝对误差MAE、平均绝对百分比误差MAPE、决定系数R²）系统比较其性能。
研究流程与方法
数据准备与预处理
数据来源：采用Carbon Monitor提供的中国多部门（电力、工业、地面交通等）近实时CO₂排放数据，涵盖COVID-19疫情期间的波动（如2020年初排放骤降）。
 
预处理：对单变量时间序列数据进行归一化，并按80%-10%-10%划分为训练集、验证集和测试集。数据表现出明显的季节性（每年1月峰值、2月谷值），需通过差分处理非平稳性。
 
模型构建与优化
统计模型：
 GM(1,1)：基于灰色系统理论，通过一阶累加生成序列（1-AGO）和邻均值序列构建微分方程，适用于小样本预测。
 
ARIMA(0,1,3)：通过网格搜索（GridSearch）确定最优参数，结合差分处理非平稳性。
 
SARIMAX(0,1,3)：在ARIMA基础上引入外生变量（如季节性因素），以捕捉周期性波动。
 
机器学习模型：
 ANN：采用三层结构（输入层3节点、隐藏层2×12节点、输出层1节点），使用ReLU激活函数和Adam优化器，训练3000轮次。
 
RF：设置100棵决策树，最大深度20，通过Bootstrap采样和特征随机选择提升泛化能力。
 
LSTM：设计双隐藏层（各50个LSTM单元），利用输入门、遗忘门和输出门机制解决长期依赖问题，通过ModelCheckpoint保存最优权重。
 
模型评估
 在独立测试集上计算五类指标：
MSE/RMSE：衡量预测值与实际值的偏差平方，值越小精度越高。
 
MAE/MAPE：反映绝对误差及百分比误差，直接体现预测实用性。
 
R²：评估模型解释方差的能力，越接近1表明拟合度越好。
 
主要结果
 1. 机器学习模型全面优于统计模型：
 - LSTM表现最佳，MSE低至3.5179×10⁻⁴（GM(1,1)为0.0229），MAPE仅14.83%（GM(1,1)为120.45%），R²达0.9844（统计模型R²均为负值）。
 - ANN与RF紧随其后，MSE分别为3.9956×10⁻⁴和5.3638×10⁻⁴，验证了机器学习处理非线性时序的优越性。
统计模型的局限性：
GM(1,1)因假设线性增长，预测曲线严重偏离实际波动（图5a）；ARIMA/SARIMAX虽能捕捉部分趋势，但无法适应高波动数据（图5b-c）。
 
LSTM的预测应用：
 基于测试集（2022年6月25日–9月30日）的预测结果，外推至2022年底的排放趋势显示与历史数据一致（图6），证实其可用于短期政策模拟。
结论与价值
 1. 科学价值：
 - 首次证明LSTM在每日CO₂排放预测中的显著优势，其通过门控机制有效捕捉复杂时序模式，为环境科学提供了高精度建模工具。
 - 揭示了统计模型（如GM(1,1)）在长时序、高波动数据中的不适用性，推动方法论革新。
应用价值：
 为中国的“2030碳达峰、2060碳中和”目标提供实时数据支持，例如监测经济复苏期间的排放反弹风险。
 
建议政策领域：推广电动汽车（降低交通排放）、发展可再生能源（减少煤电依赖）、建设绿色机场（航空减排）。
 
研究亮点
 1. 创新性数据：首次使用长达1004天的近实时排放数据集，较传统年度数据显著提升预测时效性。
 2. 方法论贡献：系统比较六类模型，明确LSTM为最优解，并公开参数配置（如LSTM的双隐藏层结构）。
 3. 政策衔接：提出“预测-政策”联动机制，缩短减排决策响应时间至天级别。
局限与展望
 当前研究未纳入GDP、能源消费等外生变量，未来计划扩展为多变量LSTM模型，以进一步提升预测鲁棒性。
（报告字数：约1800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问