中国工业园区多类型建筑高分辨率电力负荷数据集

分享自：
中国工业园区多类型建筑高分辨率电力负荷数据集

电气科学与工程
工程学
期刊:scientific dataDOI:10.1038/s41597-023-02786-9
【点击此处】阅读全文、收藏及针对性提问
关于中国苏州工业园区多类型建筑高分辨率电力负荷数据集的学术报告
本报告旨在介绍一篇发表于《Scientific Data》期刊2023年第10卷、文章编号870的数据描述性论文。该论文由合肥工业大学管理学院的周凯乐、胡丁丁、胡荣以及冀中能源技术（上海）有限公司的周炯共同完成，并于2023年在线发表。论文的核心贡献并非提出新的理论或模型，而是发布并详尽描述了一个独特且高质量的开源数据集——“中国苏州工业园区多类型建筑高分辨率电力负荷数据集”。这一工作属于能源信息学、建筑能源管理与数据科学交叉领域。
一、 研究背景与目标
随着全球能源挑战日益严峻，提升能源效率、实现能源的合理利用成为关键。工业园区作为产业集聚区和能源消耗大户，其电力负荷模式的理解对于优化园区能源管理、实施需求侧响应（Demand Response, DR）以及促进电网稳定运行至关重要。然而，相关研究的深入发展长期受到数据可及性的制约。具体而言，尽管智能电表（Smart Meters）的普及产生了海量数据，但针对工业园区内不同类型建筑（如办公楼、住宅楼、商业楼、公共建筑）的详细、长期、高分辨率电力负荷数据集却很少公开可用。现有数据集多集中于家庭户级或单一建筑类型，缺乏对园区级多业态复合系统负荷特性的全面刻画。
在此背景下，本研究团队旨在填补这一数据空白。他们的核心目标是：构建并发布一个覆盖时间长、分辨率多样、包含多类型建筑的工业园区电力负荷开源数据集。该数据集不仅提供原始观测值，还详细说明了数据收集、处理及缺失值填补的方法，旨在为学术界和工业界的研究人员提供一个可靠的基础数据平台，以支持广泛的后续研究，包括但不限于负荷预测、负荷模式识别、异常检测和需求响应策略开发。
二、 数据集构建的详细工作流程
本研究的工作流程主要围绕数据的收集、处理、验证与发布展开，可详细阐述如下：
1. 数据收集过程： * 数据来源与系统架构： 数据来源于中国苏州某工业园区的智能能源管理系统。收集架构是一个典型的三层体系：测量层——部署于各建筑内的智能电表，以5分钟、30分钟和1小时三种时间分辨率自动采集实时电力负荷数据（单位：千瓦）；传输层——通过RS-485/GPRS通信协议将数据安全稳定地传输至云端；存储与展示层——云平台负责数据的监控、展示与存储。用户可通过该系统进行数据检索。 * 数据范围与对象： 数据收集于2023年4月10日进行，覆盖的时间跨度为完整的6年，即从2016年1月1日至2021年12月31日。研究对象为园区内的四种典型建筑：一栋办公楼、一栋住宅楼、一栋商业楼和一栋公共建筑。论文的表2提供了各建筑的关键特征，如建筑面积、容纳人数和单位面积年能耗（EUI）。例如，商业楼和公共建筑的EUI显著高于办公楼和住宅楼，这初步揭示了其不同的能耗强度。此外，每小时的气象数据（温度和湿度）也通过园区内的专用气象站同步收集。 * 数据缺失情况： 论文表3详细列出了每年每种建筑类型在1小时分辨率数据上的缺失值比例。缺失主要源于两个原因：设备安装时间（如公共建筑在2016年下半年才安装电表）和外部事件影响（如2020-2021年新冠疫情影响了部分建筑的运行和设备维护，导致住宅和公共建筑数据缺失率较高）。
2. 数据处理与质量控制流程： * 数据分类： 从系统中成功检索到的值被标记为“正常”（Normal），而未能检索到的值（无论是单日内的部分缺失还是全日数据缺失）均被统一归类为“缺失”（Missing）。 * 缺失值填补方法： 为提高数据集的可用性，研究者评估并推荐了缺失值填补方法。他们首先从完整数据段中随机选取20个“正常”值人为标记为“缺失”，然后使用三种方法进行填补：线性插值（Linear Interpolation）、随机森林（Random Forest, RF）和链式方程多重插补（Multiple Imputation by Chained Equations, MICE）。以平均绝对百分比误差（MAPE）作为评估指标（公式1）。表4和图4的结果显示，对于办公楼数据，MICE方法（MAPE=0.079）显著优于线性插值（0.525）和随机森林（0.549）；对于其他建筑，三种方法差异不显著，但MICE整体表现略优或相当。因此，论文推荐使用MICE方法进行缺失值填补。MICE方法的原理在于，它将多变量缺失数据问题转化为一系列基于条件分布假设的单变量插补问题，通过迭代过程逐步逼近缺失值的真实分布，并能提供反映不确定性的多个插补数据集。 * 异常值处理哲学： 值得注意的是，研究者选择不处理原始数据中的异常值或故障值。其理由包括：异常值可能蕴含新的负荷模式或趋势信息，剔除会导致信息损失；保留原始值有助于构建在真实场景中更稳健的分析模型；且“异常值”的定义本身模糊（例如，极高值可能是仪表故障，也可能是真实的负荷尖峰），不宜简单判断。这一做法旨在为异常检测等研究保留最原始的数据基础。
3. 数据记录与存储架构： * 数据集已存储于开放科学框架（Open Science Framework, OSF）仓库。其存储结构具有高度组织性（见图3）。整体数据集首先按年份分为6个主文件夹（2016-2021）。每个年份文件夹下，又按时间分辨率（5分钟、30分钟、1小时）分为子文件夹。每个分辨率子文件夹内，再按建筑类型（办公室、住宅、商业、公共）细分。最终，每日的数据存储为一个独立的.xlsx文件，文件命名规范为“日期_分辨率_建筑类型”（如“20180101_1hour_office”）。气象数据同样以.xlsx文件存储，每个文件包含日期、温度（摄氏度）和湿度（百分比）三列。
4. 技术验证与数据分析流程： 为了证明数据集的质量与研究潜力，作者进行了一系列技术验证和初步分析： * 多分辨率验证： 图5展示了同一代表日（2018年3月1日）四种建筑在5分钟、30分钟和1小时分辨率下的负荷曲线。更高分辨率（5分钟）能揭示更细微的波动，而1小时分辨率曲线更清晰平滑，便于宏观模式识别。后续分析主要基于1小时分辨率数据进行。 * 负荷模式可视化与相关性分析： 使用热力图（图6）直观展示了2018年全年四种建筑每小时的负荷情况。共同模式是夏冬季能耗高于春秋季。具体模式各异：办公楼在白日工作时间出现单峰；住宅楼呈现早、晚双峰模式；商业楼夜间负荷较高；公共建筑则在下午出现峰值。图7进一步量化了四种建筑每小时负荷之间的相关性，揭示了建筑间用电行为的相互关联程度。 * 负荷-天气关联分析： 图8以办公楼一周数据为例，展示了电力负荷与温度的时间序列关系，观察到负荷峰值通常滞后于温度峰值数小时，这为负荷预测模型提供了关键特征（温度滞后效应）。图9展示了气象特征（最高、最低、平均温度和湿度）之间的相关性矩阵，有助于在构建机器学习模型时进行特征选择，避免冗余。 * 长期趋势分析： 图10展示了每种建筑从2016年至2021年的年度负荷曲线。长期趋势显现：办公楼年度曲线形状相对稳定；住宅楼2019年后整体用电水平下降；商业楼年际变化最显著且呈逐年增长趋势；公共建筑的年度变化则显得不规则。这些趋势为研究长期影响因素（如能效改造、运营模式变化、突发事件等）提供了线索。
三、 数据集的主要特点与潜在应用价值
基于上述工作流程产生的数据集具有以下突出特点： 1. 多样性： 包含工业园区内四种功能迥异的建筑类型，能反映不同运营时间、人员行为导致的负荷变化模式。 2. 高分辨率与多尺度： 提供5分钟、30分钟、1小时三种时间分辨率，支持从瞬时波动到长期趋势的不同尺度分析，也为比较不同数据分析算法提供了基准。 3. 长期性： 覆盖6个完整年度，足以捕捉季节性规律、年度变化和长期趋势。 4. 多源数据融合： 配套提供了对应的小时级气象数据（温度、湿度），便于研究外部环境因素与用电行为的关系。
论文表1系统总结了该数据集的潜在应用领域： * 负荷预测（Load Forecasting）： 基于历史负荷、气象数据等外部因素，预测未来电力需求。高分辨率长期数据有助于开发更精准的预测模型，支持削峰填谷策略。 * 负荷模式识别（Load Pattern Recognition）： 通过聚类等数据分析技术，揭示不同建筑的独特用电行为、变化规律，为实施分类节能措施提供依据。 * 异常检测（Anomaly Detection）： 识别偏离预期模式的用电行为，可用于发现设备故障、网络攻击或非技术性损耗，提高系统运行效率。 * 需求响应策略开发（Demand Response Strategy Development）： 基于详细的用电行为分析，评估建筑电力需求的灵活性，制定针对性的需求响应策略，平衡供需。
四、 研究的亮点与意义
本研究的核心亮点与价值在于： 1. 数据资源的稀缺性填补： 公开了一个在范围（园区多建筑）、时长（6年）和分辨率（多尺度）上均具特色的高质量电力负荷数据集，极大地丰富了该领域公共数据资源的多样性，尤其弥补了工业园区层面细分建筑类型数据匮乏的不足。 2. 方法论透明与可复现： 论文不仅提供了数据，还详尽描述了从采集、传输、存储到处理（特别是缺失值填补方法比较与选择）的全流程，并公开了相关代码（通过GitHub）。这种透明性保证了研究的可复现性，并为其他研究者处理类似数据提供了方法论参考。 3. 面向广泛的研究社区： 数据集设计考虑了多种潜在研究用途，并通过初步的技术验证（如相关性分析、模式可视化）展示了其应用潜力。数据以通用格式（.xlsx）存储，易于使用Python、R、MATLAB等工具处理，降低了使用门槛。 4. 支持算法开发与基准测试： 多分辨率、多建筑类型、含缺失值的真实数据，为开发和测试各种数据挖掘、机器学习算法（如预测、聚类、异常检测算法）提供了理想的“试验场”。
五、 总结
周凯乐等人发布的“中国苏州工业园区多类型建筑高分辨率电力负荷数据集”是一项重要的数据基础设施工作。它通过系统性的收集、严谨的处理和详细的描述，为能源管理、电力系统、数据科学等领域的研究者提供了一个宝贵的研究资源。该数据集有助于深入理解复杂工业环境中多元建筑的用电特性，推动基于数据的节能策略、智能电网技术以及高级数据分析方法的发展。其开放共享的理念符合科学数据共享的趋势，预计将催生一系列有价值的后续研究成果。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问