类型a
Mate Krišto、Marina Ivasic-Kos(IEEE会员)和Miran Pobar是本研究的主要作者,他们来自克罗地亚里耶卡大学信息学系。该研究于2020年7月6日发表在《IEEE Access》期刊上。
学术背景
随着全球恐怖主义威胁和非法移民问题的加剧,对公民安全的关注日益增加。为了预防不良事件并保护人民及其财产,人们正在努力利用所有可用的技术进步。由于能够在夜间和RGB相机无法良好工作的天气条件下使用,热成像相机已成为复杂视频监控系统的重要组成部分。本文探讨了使用最初为RGB图像设计的卷积神经网络模型在热图像中自动检测人的任务。我们比较了标准的最先进的目标检测器如Faster R-CNN、SSD、Cascade R-CNN和YOLOv3的性能,这些检测器在从模拟边境和保护区非法移动的热成像视频数据集重新训练后进行评估。
详细工作流程
数据收集与预处理
- 数据收集:研究人员使用FLIR Thermacam P10 LWIR热成像相机,在冬季的不同天气条件(晴天、大雨、浓雾)下录制视频。录制距离从30米到215米不等,涵盖了不同的身体姿势和运动速度(正常行走、跑步、匍匐前进等)。此外,部分视频包含狗作为非人类对象。
- 数据预处理与标注:从录制的视频中提取帧,最终得到11,900张晴天图像、4,905张雾天图像和7,030张雨天图像。其中,6,111张图像被手动标注用于监督学习模型的训练。标注工具使用的是开源的YOLO BBox Annotation Tool。
实验设置
- 选择YOLOv3作为目标检测器:通过对Faster R-CNN、SSD、FCOS、Cascade R-CNN和YOLOv3等模型进行初步实验,发现YOLOv3在热图像上的平均精度(AP)表现优异,且推理速度显著更快(27.5帧/秒),因此选择YOLOv3进行进一步实验。
- 模型训练:使用Darknet框架中的YOLOv3架构,输入尺寸为608×608像素。训练集包括4,270张图像,测试集包括1,841张未参与训练的图像。此外,还进行了不同训练集大小的实验,以确定最小训练集规模。
基准测试
- 在广泛使用的热成像数据集(如CVC FIR: Sequence Pedestrian Dataset、VOT-TIR2015、OTCBVS Benchmark Dataset Collection、Terravic Motion IR Database)上测试训练好的模型。为了适应这些数据集的灰度图像特性,研究人员将伪彩色RGB图像转换为灰度图像。
主要结果
YOLOv3在不同天气条件下的性能
- YOLOv3在晴天、雾天和雨天的AP得分分别为97.85%、97.85%和98.08%。在100%精度下,召回率分别为35%、50%和75%,表明模型在不同天气条件下均能有效检测人类。
- 图16至图21展示了不同距离和天气条件下的检测结果。例如,在晴天条件下,TY模型成功检测到150米外的三个人,而BY模型仅检测到其中一人。
不同训练集大小的影响
- 实验表明,即使使用10%的训练数据,YOLOv3仍能取得与80%训练数据相当的结果。这大大缩短了所需的训练时间。
仅使用晴天数据训练的模型性能
- TY_Clear模型仅使用晴天数据进行训练,在晴天和雨天条件下的AP得分接近100%,但在雾天条件下的表现较差。这表明雾天对热成像检测的影响大于雨天。
人类-非人类识别
- 训练后的YOLOv3模型在检测和区分人类和动物(狗)方面取得了97.98%的mAP得分,表明该模型可以用于开发独立的自动监控系统。
基准测试结果
- 在Terravic Motion数据集上,TY_Transform模型取得了最佳结果,mAP为97%,F1得分为92%。在VOT-TIR2015和OSU Thermal数据集上,模型也取得了良好的检测结果,mAP约为83%,F1得分为77%。
结论与价值
本研究通过使用YOLOv3模型在不同天气条件下实现了热成像中的人类检测,取得了卓越的检测结果。即使是相对较小的训练集,也能在各种测试场景中实现高精度检测。研究表明,热成像技术结合深度学习方法可以在复杂的监控环境中提供可靠的解决方案,具有重要的科学和应用价值。
研究亮点
- 重要发现:YOLOv3在热成像中的性能优于其他检测器,尤其是在恶劣天气条件下。
- 方法创新:通过少量训练数据和迭代次数即可获得可靠的检测模型,大大缩短了训练时间。
- 特殊性:研究不仅关注人类检测,还探讨了人类与非人类对象(如动物)的区分,为开发自动监控系统提供了新思路。
其他有价值内容
本研究创建了一个原创的热成像数据集(UNIRI-TID),包含了不同天气和拍摄条件下的监控视频,为未来的研究提供了宝贵的资源。