中国2007-2022年国家至地级市低碳政策强度数据集研究
作者与机构
本研究的通讯作者为清华大学环境学院的Can Wang,合作作者包括Xinyang Dong(第一作者)、Fang Zhang(清华大学公共管理学院)、Haowen Zhang和Chengqi Xia(均来自清华大学环境学院)。研究成果发表于《Scientific Data》期刊2024年第11卷,文章标题为“China’s low-carbon policy intensity dataset from national- to prefecture-level over 2007–2022”。
科学领域与背景
低碳政策是推动制造业低碳转型和实现碳中和目标的核心工具。然而,现有研究多采用代理变量(proxy variables)量化政策效果,或仅聚焦国家层面的复合指标,缺乏对政策文本的直接、全面量化。中国作为全球最大的碳排放国,其多层次(国家、省级、地级市)政策体系对减排的影响尚未系统评估。
研究动机
1. 数据缺口:现有低碳政策数据集缺乏跨行政层级(尤其是地级市)的强度量化,且多依赖人工评分,存在主观偏差。
2. 方法局限:传统政策分析难以处理大规模文本数据,而机器学习技术(如自然语言处理,NLP)的应用尚未充分探索。
3. 政策需求:中国“双碳”目标需要科学评估政策效果,但政策执行与文本强度之间的关联亟待实证支持。
研究目标
构建覆盖2007–2022年中国国家、省级、地级市三级的低碳政策强度指数,通过政策文本分析量化政策层级(level)、目标(objective)和工具(instrument)的协同作用,为跨学科研究提供标准化数据集。
1. 数据准备
- 政策清单构建:从PKULaw数据库收集7282条政策文本(国家级、31省份、334个地级市),筛选标准包括关键词(如“碳减排”“能耗双控”)和可操作性(排除宣传类文件)。
- 文本结构化:利用固定特征(如标题、背景、目标、工具)拆分政策文本,通过章节标记(如“第一章”“(一)”)提取目标与工具内容至独立文件。
2. 政策分类
- 政策层级:分为国家级、省级、地级市三级。
- 政策目标:四类——碳减排(carbon reduction)、节能(energy conservation)、产能利用率(capacity utilization)、技术(technology)。
- 政策工具:三类——命令控制型(command-and-control)、市场型(market-based)、复合型(composite)。
- 分类方法:基于高频短语(如“碳排放”“补贴”)和语义相似度(Word2Vec算法),优先级规则解决多类别冲突(如碳减排目标优先于节能)。
3. 强度量化
- 公式:政策强度(PI)= 政策层级强度 × 目标强度 × 工具强度。
- 层级强度:国家级=3,省级=2,地级市=1。
- 目标/工具强度:1(弱)至3(强),节能目标增设4级(“能耗总量与强度双控”)。
- 人工标注:3334条政策由人工评分(16省份样本),训练监督模型。
4. 机器学习预测
- 模型:采用ERNIE 3.0(知识增强预训练模型)和提示学习(prompt learning),解决小样本与标注成本问题。
- 数据增强:稀疏数据识别(sparse data identification)和训练数据扩充(training data augmentation)提升准确率(碳减排目标模型准确率最高达85%)。
5. 数据集整合
- 输出格式:.dta(Stata)和.xlsx文件,包含单政策强度及按层级、目标、工具聚合的指数。
- 验证:动态时间规整(DTW)显示与国家环境政策指数趋势相似(距离2.53),随机抽样验证人工与预测结果一致性(准确率85–93%)。
科学价值
1. 方法创新:首次结合政策层级、目标、工具三维度,通过NLP与提示学习量化政策强度,减少人工偏差。
2. 数据贡献:覆盖中国全行政层级,支持与宏观/微观数据(如企业碳排放)的跨学科关联分析。
应用价值
1. 政策评估:为地方政府提供政策效果量化工具,优化“自上而下”目标分解。
2. 碳中和路径:揭示市场型工具对低碳转型的促进作用,指导政策组合设计。
局限与展望
未来可结合政策执行强度数据,进一步分析文本与实效的差距。数据集已公开于Figshare(DOI: 10.6084/m9.figshare.c.6761106.v1),供学术与非商业使用。