本文档《Progress in data-driven thermal comfort analysis and modeling》发表于学术期刊 Energy & Buildings 2025年的第336卷。这是一篇由University of Split FESB的Ana Čulić、Sandro Nižetić、Petar Šolić以及University of Split, Faculty of Maritime Studies的Jelena Čulić Gambiroža共同撰写的综述性论文。本文旨在对数据驱动的热舒适分析与建模领域的最新进展进行全面回顾与系统分析。
本文首先确立了其研究背景与目标。建筑领域消耗了全球约30%的能源并排放了相应比例的二氧化碳,因此提升建筑能效至关重要。在此背景下,室内热舒适性不仅关系到使用者的健康、福祉与生产力,也对建筑能耗(尤其是暖通空调系统)产生直接影响。传统的热舒适模型(如预测平均热感觉指数PMV)存在局限性,而随着物联网和传感器技术的发展,获取大量环境与人员数据成为可能。机器学习技术为利用这些数据、实现更精准和个性化的热舒适预测提供了强大工具。近年来,相关研究文献数量激增,但研究在输入变量、输出指标、算法选择及评估标准方面存在显著差异,缺乏可比性和标准化,阻碍了模型的广泛应用。因此,本文的核心目标是通过回答五个关键研究问题,系统梳理该领域的研究现状:1) 热舒适建模中常用的输入(预测)变量有哪些?2) 主要的热舒适输出(预测)指标是什么?3) 通常采用哪些机器学习算法?4) 评估模型性能采用了哪些指标?5) 研究所用数据集的来源、类型和规模是怎样的?通过回答这些问题,本文旨在为开发一个支持在节能建筑管理系统中广泛应用的、更通用的热舒适建模框架奠定基础。
本文的主要观点之一是对热舒适研究中所采用的数据集进行了详细梳理与分析。作者指出,目前研究使用的数据集主要分为两大类:一类是公开的已有数据库,如ASHRAE RP-884、ASHRAE热舒适数据库II、SCALES项目数据集、中国热舒适数据库和Charlotte热面部数据集等,其数据量从数千到超过十万条记录不等;另一类则是研究者自行开展的实验或模拟所生成的数据集,实验场景涵盖大学教室、办公室、实验室、环境舱、住宅甚至电动巴士,地理分布遍及欧洲、北美、亚洲和澳大利亚等全球多个地区。作者通过表格(表1和表2)详细列举了不同研究中使用的具体输入和输出变量组合,这清晰地揭示了数据集构建的多样性。一个关键的发现是,目前缺乏数据集构建的标准方法,这导致输入特征的选择、目标输出的定义以及所用算法都各不相同,使得不同研究之间的结果难以直接比较,构成了一个开放的研究挑战。
本文的第二个核心观点是系统归纳了热舒适建模中的输入变量与输出指标。在输入变量方面,主要分为环境变量和人员相关变量。最核心的环境变量包括空气温度、平均辐射温度、空气流速和相对湿度,这些是几乎所有研究都考虑的因素。此外,一些研究还引入了室外气象条件、CO₂浓度、黑球温度等变量。人员相关变量则主要包括衣着热阻和代谢率,尽管它们在实际应用中难以实时精确测量,通常依赖于预设值或用户报告。值得注意的是,越来越多的研究开始整合生理参数作为输入,如皮肤温度(特别是手部和面部)、心率、皮肤电活动、脑电图等,这反映了向更个性化、实时化预测模型发展的趋势。在输出指标方面,最常见的是热感觉、热舒适和热偏好,通常以分类任务(如ASHRAE 7点量表)进行建模。预测平均热感觉指数则常被视为回归任务进行预测。其他如衣着热阻、标准有效温度、热可接受度等指标也在部分研究中作为输出。
本文的第三个主要观点是全面综述了应用于热舒适建模的机器学习算法及其性能评估指标。作者通过统计发现,支持向量机和随机森林是该领域应用最广泛的算法,无论是在回归还是分类任务中均占据主导地位。其他常用算法包括k近邻、决策树、人工神经网络、逻辑回归、朴素贝叶斯、多层感知机以及长短期记忆网络等。对于模型性能的评估,作者详细区分了回归任务和分类任务所使用的不同指标。在回归任务中,最常用的指标是平均绝对误差、均方根误差、均方误差和决定系数。本文通过表格汇总了文献中报道的这些指标的最佳值范围,例如,最佳MAE可低至0.025(PMV预测),最佳R²可高达0.967。在分类任务中,则主要使用准确率、精确率、召回率、F1分数以及AUC和科恩卡帕系数等指标。准确率最高可达99%以上,F1分数也有接近100%的报道。然而,作者也明确指出,尽管这些通用指标被广泛使用,但研究者在指标选择上缺乏一致性,且现有指标可能无法充分捕捉领域特定需求(如数据不平衡问题),这给模型性能的横向比较带来了困难。
本文的第四个观点是对当前研究方法的不足与未来方向进行了深刻讨论。基于前述分析,作者总结出当前研究存在几个关键缺口:环境与人员输入变量的选择尚未标准化;数据集构建方法各异;模型评估指标缺乏统一标准。这些问题共同阻碍了数据驱动热舒适模型的广泛应用与实用化部署。因此,作者在结论部分提出了未来研究的重点方向。具体包括:开发标准化的、包含更广泛输入变量(如CO₂、黑球温度、皮肤电导率等)的开放框架;定义用于测试和验证真实场景应用的标准方法;整合实时个性化生理数据以实现动态适应;探索集成学习和混合深度学习等先进算法以应对响应的高变异性;实施多目标优化以平衡能效与舒适度;开发考虑地域气候与文化差异的区域特异性模型;开展长期研究以捕获居住者的季节性适应行为;并通过试点研究推动模型在商业和住宅环境中的实际部署。
本文的学术价值与应用意义重大。作为一篇系统性综述,它不仅为热舒适与建筑科学领域的研究者提供了一份详尽的“知识图谱”,清晰梳理了数据驱动方法的应用现状、主流技术和关键挑战,而且为后续研究指明了明确的方向。其提出的标准化框架构想和未来研究议程,对于推动该领域从分散的探索走向整合的、可比较的、最终可工程化应用的科学发展至关重要。此外,本文对算法性能和评估指标的深入分析,有助于机器学习研究者更好地理解该特定领域的建模需求与评估难点,促进更适配的算法开发。最终,本工作的目标是为构建用户中心、节能高效的建筑环境提供坚实的理论基础和方法学参考,对实现建筑领域的可持续发展具有重要的现实意义。