分享自:

基于红外热适应行为时空建模的个人热舒适预测研究

期刊:Energy & BuildingsDOI:10.1016/j.enbuild.2025.116406

《Energy & Buildings》期刊于2025年9月在线发表了一篇题为《Spatiotemporal modeling of infrared thermal adaptive behavior recognition for personal thermal comfort prediction》的研究论文。该论文的第一作者兼通讯作者为西安建筑科技大学的Yan Bai,合作作者包括同校的Canfeng Lv和Liang Liu。

本研究的学术领域属于智能建筑、室内环境与人体热舒适、计算机视觉与深度学习的交叉领域。研究开展的背景是建筑节能与室内人员热舒适之间的矛盾。建筑能耗约占全球总能耗的三分之一,其中近一半用于供暖、通风和空调系统。为了在保证舒适的同时降低能耗,准确评估和预测室内人员的热舒适水平至关重要。传统的热舒适评估方法(如问卷调查)具有侵入性、易干扰工作且难以实时实施。基于物联网传感器(如可穿戴设备)的方法虽然能够收集生理数据,但存在用户依从性、成本和隐私问题。基于可见光摄像头的非侵入式测量则面临光照条件影响和隐私泄露的风险。因此,本研究旨在开发一种基于红外热成像技术的非侵入式、保护隐私的个人热舒适预测模型。其核心思路是:当人们感到热或冷时,会下意识地做出一些热适应性行为,例如擦汗、扇风、穿脱外套等。通过识别这些行为,可以推断出个体的热感觉状态。本研究的目标是构建一个能够从红外视频中准确识别这些热适应性行为的时空深度学习模型,并以此为基础预测个人的热舒适水平。

本研究的工作流程系统且详尽,主要包括以下六个步骤:

第一步是热适应性行为的定义与数据集构建。这是整个研究的基础。研究团队首先定义了11种典型的、在办公室环境中常见的TAB。其中,与热不适相关的行为有6种:扇风、擦汗、脱外套、卷袖子、伸展手臂、脱帽;与冷不适相关的行为有5种:穿外套、戴帽、放袖子、搓手、交叉手臂。为了收集数据,研究团队在长沙的一个普通办公环境中,招募了17名(10男7女)健康参与者。实验环境的温度模拟了夏季常见的波动范围,设置为22°C至30°C,并进一步细分为三个区间以覆盖不同的热环境。参与者先静坐适应环境20分钟,然后从五个不同角度(正面、左侧、左前、右侧、右前)采集其执行这11种行为的红外视频。采集过程中,同步记录了参与者的主观热感觉投票。最终,经过筛选,构建了一个包含2793个红外视频样本的数据集。实验使用的设备是海康微影的Hikmicro P20红外热像仪,视频分辨率为256x192,帧率为25fps。

第二步是数据预处理。由于红外图像对比度低、边缘信息模糊,直接使用全帧图像可能引入无关背景噪声。研究团队首先采用轻量级目标检测模型YOLOv7-tiny对每帧图像中的人体区域进行检测和定位,然后将检测到的人体区域序列重新堆叠成新的视频,作为后续模型的输入。此外,研究还探索了不同输入视频长度(8帧、16帧、24帧)对模型性能的影响。采样步长根据原始视频总帧数和目标帧数动态计算,确保能覆盖动作的关键阶段。

第三步是时空模型构建与基线模型选择。这是本研究的核心技术环节。研究团队构建了一个两阶段的时空模型:首先使用卷积神经网络提取单帧图像的空间特征,然后将多帧的空间特征序列输入时序模型,以捕捉行为的时间动态。在空间特征提取方面,他们比较了三种主流的CNN架构:轻量级的MobileNetV2、经典的ResNet34和密集连接的DenseNet121。在时序建模方面,他们比较了长短时记忆网络和门控循环单元,并测试了单层和双层结构。通过组合不同的CNN和时序模型,以及不同的输入帧数,共比较了12种时空建模方法。评估指标不仅包括识别准确率,还包括参数量、训练时间和单视频检测时间,以全面评估模型的效率和实用性。经过大量实验对比,综合考虑准确率(93.20%)、参数量(590万)、训练时间和检测速度,最终选择以8帧为输入、采用MobileNetV2作为空间特征提取器、单层GRU作为时序模型的组合作为基线模型。实验表明,对于“卷袖子”、“放袖子”、“戴帽”、“脱帽”等时间依赖性强的行为,引入时序模型的识别性能相比仅使用CNN的静态图像分类有显著提升。

第四步是模型性能优化。针对红外视频特征信息较少、不同行为样本间特征相似度高的问题,研究团队在基线模型的基础上引入了两种注意力机制进行增强。首先,在MobileNetV2网络的特定深度可分离卷积模块后嵌入了坐标注意力机制。CA模块能够分别沿高度和宽度方向对特征图进行全局池化,编码精确的位置信息,从而增强模型对关键空间区域的感知能力,有助于提取更精细的特征。其次,在CNN和GRU之间引入了多头自注意力机制。MHA机制能够增强序列中各个空间特征向量之间的关系,使模型能够关注视频序列中的关键动作帧,抑制冗余或过渡帧的干扰,从而提升对时序信息的理解能力。经过多次实验,确定注意力头数为4时效果最佳。最终形成的改进模型被命名为MobileNetV2-CA-MHA-GRU1。

第五步是实验验证与结果分析。研究团队对改进后的模型进行了全方位的评估。首先,消融实验结果显示,单独加入MHA或CA都能提升基线模型的性能,而将两者结合(MobileNetV2-CA-MHA-GRU1)获得了最佳效果,在TAB识别任务上的准确率达到95.89%,比基线模型提升了2.69%。该模型的混淆矩阵显示,在“放袖子”、“卷袖子”、“戴帽”、“脱帽”等难度较大的行为上,识别准确率分别达到了90%、98%、100%和98%,证明了其卓越性能。其次,分析了不同拍摄角度对模型识别准确率的影响。结果显示,从参与者侧前方(左前、右前)或侧方(左、右)拍摄时,模型的平均识别准确率(约96.30%-97.09%)普遍高于从正面拍摄(93.50%)。这是因为红外成像依赖于热辐射,正面视角下人体暴露面积大,热辐射较为均匀,特征信息减少;而侧方视角能捕捉到更多样化的热信息,增强了行为的可区分性。第三,为了评估模型在实际办公室遮挡场景下的鲁棒性,研究进行了随机遮挡数据增强实验。在最大遮挡比例达到40%的严苛条件下,MobileNetV2-CA-MHA-GRU1模型仍能保持86.76%的识别准确率,展现了最强的抗遮挡能力。最后,也是最重要的应用验证:将模型预测出的行为类别,根据前期问卷调查建立的映射关系(见表1),转换为对应的热感觉类别(如“热”、“暖”、“中性”、“凉”、“冷”等)。在此热感觉分类任务中,MobileNetV2-CA-MHA-GRU1模型取得了96.24%的准确率,证明其能够有效地根据TAB来推断人员的热舒适状态。

第六步是讨论与结论。研究团队将所提出的方法与现有基于TAB的热舒适识别研究进行了对比,指出本方法的优势在于:利用红外成像,避免了可见光方法的隐私问题和光照敏感性;采用目标检测进行人体区域裁剪,减少了对复杂姿态关键点提取的依赖;通过精心设计的轻量级时空模型结合注意力机制,在保证效率的同时实现了高精度。同时,作者也坦承了本研究的局限性:定义的11种行为可能未能覆盖现实中所有细微或组合动作;当前研究针对单人员场景,未考虑多人员环境;实验环境局限于办公室,未来可扩展至教室、图书馆等更复杂场景。

本研究的主要结论总结如下:1. 成功构建了一个包含11种TAB、从五个角度采集的红外视频数据集。2. 通过系统比较,确定了MobileNetV2-GRU1(8帧输入)作为最优的时空建模基线。3. 针对红外视频特性,引入CA和MHA注意力机制,显著提升了模型性能,最终模型MobileNetV2-CA-MHA-GRU1在行为识别和热感觉分类任务上分别达到95.89%和96.24%的准确率,且对遮挡具有强鲁棒性。4. 侧方角度比正面角度更有利于红外TAB的识别。

本研究的价值体现在科学和应用两个层面。在科学层面,它首次系统性地将红外视觉、时空深度学习和注意力机制应用于热适应性行为识别这一特定领域,为解决非侵入式、保护隐私的热舒适监测提供了创新的技术路径和详实的实验验证。在应用层面,该模型可以与楼宇自动化系统和中央空调控制系统结合,通过实时监测人员行为推断其热舒适状态,进而实现个性化的、按需供给的室内环境调控。这不仅能提升建筑使用者的满意度和工作效率,还能通过避免过度制冷或供热,为建筑节能降耗提供科学依据,具有重要的实际应用前景。

本研究的亮点突出表现在以下几个方面:第一,研究视角新颖,创造性地将红外热成像技术引入热舒适行为识别领域,巧妙地平衡了监测效果与隐私保护。第二,方法论严谨系统,从行为定义、数据采集、预处理、基线模型选择与比较,到引入针对性的注意力机制进行优化,并进行了多角度、抗遮挡、热感觉映射等多维度验证,研究链条完整。第三,模型设计兼顾性能与效率,选用的MobileNetV2和GRU均为轻量级结构,结合自研的CA和MHA增强方案,在保持高精度的同时确保了模型在资源受限的边缘设备上部署的可行性。第四,构建并公开(根据请求)了一个专门用于红外热适应行为识别的数据集,为后续相关研究提供了宝贵资源。第五,研究结果不仅停留在行为识别准确率,更深入到了最终的应用目标——热感觉分类,并取得了优异性能,完整地验证了“从红外行为到热舒适预测”这一技术路线的可行性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com