基于非侵入式传感器与数据驱动方法的寒冷季节窗户开启行为研究报告
本报告旨在详细解读一篇近期发表在学术期刊上的原创性研究,该研究探讨了寒冷季节中建筑使用者窗户开启行为,并提出了一个创新的、结合低成本传感器与机器学习模型的预测与控制框架。研究论文《Investigation of window opening behavior during cold seasons through a non-intrusive sensor-based data-driven approach》由 Nastaran Asadi 与 Leila Moosavi 合作完成,两位作者均隶属于伊朗亚兹德大学艺术与建筑学院建筑系。该论文于2024年6月在线发表于Elsevier旗下期刊《Energy & Buildings》(第317卷,文章编号114386)。
学术研究背景 本研究属于建筑科学、能源效率与人居环境(Indoor Environmental Quality, IEQ)的交叉领域,核心关注点在于“使用者行为建模”。建筑能耗占全球总能耗的30%以上,且预计将持续增长。传统的建筑性能模拟(Building Performance Simulation, BPS)工具通常采用固定的使用者行为时间表,这往往导致模拟预测能耗与实际能耗之间存在显著差距,这种差距很大程度上源于使用者与环境系统(如窗户、空调等)互动的复杂性和不确定性。窗户操作是使用者调节室内环境(如改善热舒适度和空气质量)的一种关键自适应行为。然而,在寒冷季节,开启窗户进行自然通风虽然能缓解过热问题,却会导致大量的热能损失,从而增加建筑的整体能耗。因此,精确理解和预测窗户开启行为,对于在保证使用者热舒适的前提下优化建筑能源管理、减少不必要的能源浪费具有至关重要的意义。以往研究多依赖统计模型或特定的机器学习算法,但往往缺乏从传感器开发、数据采集到最终构建预测模型的完整、系统化工作流。本研究旨在填补这一空白,通过开发一套集成的、非侵入式的数据采集设备,并结合先进的机器学习和时间序列分析,创建一个能够预测窗户状态并指导主动控制策略的完整解决方案,以推动智能建筑的实际应用。
详细研究工作流程 本研究设计并实施了一个严谨、系统的工作流程,主要包含以下几个核心步骤:
低成本非侵入式传感器开发与数据采集:为克服传统监测方法可能引发的“霍桑效应”(即使用者因知道自己被观察而改变行为),研究团队自主设计并制造了一个定制化的低成本数据采集设备。该设备以Arduino Uno微控制器为核心,集成了多种传感器:使用DHT11传感器测量室内温湿度;采用超声波模块和微波雷达传感器来非侵入式地检测空间占用情况并精确识别窗户的三种状态(全开、半开、关闭);通过DS1307实时时钟和Micro SD卡模块实现带时间戳的数据自动存储。该设备仅在检测到室内有人员活动时才激活并记录数据,从而最小化对使用者正常生活的干扰,确保采集到的行为数据真实自然。研究选取了伊朗伊斯法罕(炎热干旱气候)的一处住宅作为案例,在2024年1月进行了为期两周的连续监测,共收集了7002个有效数据样本。同时,室外温湿度和风速数据从当地气象站同步获取。
特征工程与数据预处理:基于领域知识,研究首先筛选出可能影响窗户开启行为的关键环境参数作为初始特征,包括室内温度(Ti)、室内相对湿度(RHi)、室外温度(To)、室外相对湿度(RHo)、风速以及一天中的时间。随后,研究进行了深入的探索性数据分析。通过绘制箱线图和分布图,分析了各环境变量的数据范围与分布特征。通过皮尔逊(Pearson)相关分析和距离相关(Distance Correlation)分析,分别探究了特征之间的线性和非线性成对关系。例如,发现室外温度与室外相对湿度呈较强的负线性相关,而室外温度与室内相对湿度则无明显线性关系,暗示了更复杂的相互作用。
多元解释性数据分析:为理解不同窗户状态类别(关闭、半开、全开)在多变量环境条件下的差异,研究采用了偏最小二乘判别分析(Partial Least Squares-Discriminant Analysis, PLS-DA)。这是一种能够处理高维数据并揭示类别间差异模式的多元统计方法。通过计算变量重要性投影(Variable Importance in Projection, VIP)值和变量贡献得分,研究评估了各特征对区分窗户状态类别的贡献度。分析结果表明,室内温度是区分“关闭与半开”以及“全开与半开”状态的最关键因素,而室外温度则对区分“关闭与全开”状态贡献最大。相比之下,风速的贡献得分极低,表明在当前研究地点和内部窗户设置下,风速对窗户状态变化的影响不显著,因此该特征在后续预测建模中被移除。这一步骤为特征选择提供了数据驱动的依据。
机器学习预测模型构建与优化:基于前期分析,研究将窗户状态预测构建为一个多分类问题。研究选择了五种常用的机器学习分类算法进行对比:决策树(Decision Tree)、支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest)、k近邻(K-Nearest Neighbors, KNN)以及极端梯度提升(eXtreme Gradient Boosting, XGBoost)。为了应对原始数据中窗户状态类别分布不均(“关闭”状态样本可能占多数)可能导致模型预测偏向多数类的问题,研究采用了欠采样(Under-sampling)技术来平衡各类别的样本数量。整个数据集被划分为80%的训练集和20%的测试集。在模型训练阶段,采用了5折交叉验证(5-fold Cross-Validation)结合贝叶斯优化(Bayesian Optimization)的方法,为每个模型自动寻优其关键超参数(如XGBoost中的学习率、树的最大深度等),以提升模型性能并防止过拟合。模型性能通过准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1分数(F1-score)等指标进行评估。
模型可解释性分析:为了深入理解表现最佳的“黑箱”机器学习模型(XGBoost)内部的决策逻辑,研究采用了SHAP(Shapley Additive Explanations)方法进行事后可解释性分析。SHAP值量化了每个输入特征对单个预测结果的贡献(局部解释)以及在整个数据集上的平均贡献(全局解释)。这使得研究者能够清晰地看到,例如,在一天中的不同时间点,时间特征对窗户“关闭”或“全开”的概率产生了正向还是负向的影响,从而将模型的复杂决策转化为人类可理解的洞察。
与时间序列预测耦合的主动控制策略探索:最终的模型应用不仅限于预测当前状态,更旨在实现前瞻性控制。研究进一步开发了一个基于移动平均的乘法分解时间序列预测模型,用于预测未来短期的室内温度和相对湿度变化趋势。随后,将优化后的XGBoost窗户状态预测模型与这个预测模型进行耦合。具体而言,研究在ASHRAE标准55推荐的舒适范围内(温度20-24°C,相对湿度30-40%),并结合历史数据中使用者感到舒适的设定值(21°C和35%),生成了多组“控制图”。这些控制图显示了在不同时间点、不同室内温湿度设定组合下,窗户保持关闭状态的概率。通过分析这些概率图,可以识别出既能维持高关闭概率(意味着低能源损失)、又能满足舒适标准的优化设定点。结合时间序列预测,系统可以提前预判室内环境将偏离优化设定点的趋势,从而为供暖通风与空气调节(HVAC)系统或主动通风控制提供先发制人的调整建议,形成一个“预测-优化-控制”的闭环。
主要研究结果 在各研究步骤中,获得了以下关键结果:
在探索性数据分析阶段,箱线图显示案例住宅的室内温度范围在13至28°C之间,中位数为21°C;室外温度则在-7至9°C之间。这表明研究期间存在显著的室内外温差,为研究寒冷季节因过热而开窗的行为提供了典型场景。相关分析确认了环境变量间存在复杂的关联性。
PLS-DA多元分析的结果显示,前两个主成分(t1和t2)共同解释了数据集中超过60%的变异性。VIP分析明确指出室内温度是最具影响力的全局特征,其次是时间点和室外温度。变量贡献得分图进一步细化发现:室内温度是导致“关闭与半开”以及“全开与半开”类别差异的主要来源;而室外温度则是区分“关闭与全开”类别的关键因素。这一发现与直觉相符——当室内过热时(高Ti),使用者可能开窗通风;而当室外过冷时(低To),使用者倾向于关窗保温。
在机器学习模型性能评估中,对比五种模型在平衡数据集(经欠采样处理)上的表现,XGBoost模型展现出最优的综合性能。其对三个窗户状态类别的预测F1分数分别为:关闭类0.70,半开类0.86,全开类0.68,整体准确率达到0.75。相比之下,KNN模型表现最差。研究还特别比较了使用欠采样与使用全部样本(不均衡)训练的XGBoost模型,结果发现,虽然全样本模型的整体准确率略高(0.80),但其对少数类(半开和全开)的召回率和F1分数显著下降,这表明模型存在对多数类(关闭)的预测偏见,从而验证了进行类别平衡处理的必要性。
SHAP可解释性分析提供了深刻的洞见。全局SHAP值确认了室内温度和时间点是影响预测的最重要特征。局部SHAP图则揭示了更细致的模式:例如,时间特征对预测窗户“关闭”有正向贡献,但对预测“全开”有负向贡献,意味着在一天中较晚的时间,窗户更可能处于关闭状态。室外温度升高通常与窗户开启概率增加相关,而室外相对湿度的影响则呈现出非单调的复杂关系。
在主动控制策略探索中,研究生成的“控制图”清晰地展示了不同室内温湿度设定点下窗户关闭概率随时间变化的规律。研究发现,无论温湿度如何变化,在夜间至上午9点左右,窗户保持关闭的概率都很高。而在其他时间段,关闭概率则随环境条件变化。研究指出,将室内温度和相对湿度分别维持在21°C和35%左右,能在全天大部分时间内最大化窗户关闭的概率(即最小化不必要的开窗行为),同时确保处于舒适标准范围内。时间序列预测模型对未来室内温湿度的预测均方根误差分别为1.17°C和2.8%,表明其预测精度可用于指导前瞻性控制。耦合系统能够提前预测并建议调整,以维持接近优化设定点的条件。
研究结论与价值 本研究成功开发并验证了一个从传感器设计、数据采集到行为建模与优化控制建议的完整工作流程。其核心结论是:通过非侵入式、低成本传感器结合XGBoost机器学习模型,可以有效地预测住宅建筑在寒冷季节的窗户开启行为。研究确定了21°C的室内温度和35%的室内相对湿度作为该案例中的优化设定点,能在满足热舒适的同时最大程度降低因开窗导致的能源损失。通过集成时间序列预测,该框架能够为主动式模型预测控制(Model Predictive Control, MPC)系统提供支持,实现对室内环境的先发性调节。
本研究具有重要的科学与应用价值。在科学层面,它提供了一个将非侵入式监测、多元统计分析、先进机器学习算法(XGBoost)与模型可解释性工具(SHAP)以及时间序列预测相结合的综合性方法框架,为后续更复杂的人-建筑交互行为研究提供了范例。在应用层面,该研究提出的解决方案成本低廉、易于部署,为在现有建筑中进行节能改造和智能化升级提供了一条可行的技术路径。它能够帮助建筑管理者或智能家居系统更好地理解使用者需求,在舒适与节能之间实现动态平衡,推动以使用者为中心的建筑设计与运行策略。
研究亮点 1. 系统性创新工作流:研究最大的亮点在于其完整性和系统性,涵盖了从硬件(定制传感器)开发、数据采集、特征工程、多元分析、机器学习建模与优化、模型可解释性分析,到最终与控制策略耦合的完整链条。 2. 非侵入式与低成本方法:自主设计的Arduino设备有效降低了数据采集成本,并通过巧妙的设计(仅在检测到人员时记录)最大程度减少了“霍桑效应”,获得了更真实的行为数据。 3. 深入的模型可解释性:不仅追求预测精度,还利用SHAP方法深入剖析了XGBoost模型的决策依据,将“黑箱”预测转化为可理解的物理洞察(如特定时间、特定温度对行为的影响),增强了模型的实用性和可信度。 4. 面向应用的闭环策略:研究并未止步于预测模型,而是进一步结合时间序列预测,提出了一个可用于主动控制系统的、基于优化设定点的前瞻性管理策略,体现了从理论研究到实际应用转化的明确导向。 5. 对不平衡数据处理的关注:明确处理了真实世界数据中常见的类别不平衡问题,并通过对比实验证明了欠采样处理对于获得无偏、可靠分类模型的重要性。
其他有价值的内容 研究在讨论部分指出,该方法作为一种定制化解决方案,具有普适性潜力,可适用于不同地理和气候区域。这对于在发展中国家推广建筑数字化和智能化改造具有积极意义,因为这些地区往往面临将先进技术集成到现有基础设施中的挑战。此外,研究通过PLS-DA和SHAP分析,明确了在本案例中风速对窗户状态影响甚微,这一发现有助于在类似环境的研究中简化模型输入,聚焦于关键影响因素。