基于时空自适应网络(TSNet)与自适应时间融合模块(ATFM)的驾驶员疲劳检测方法学术报告
作者及机构
本研究由河南科技大学的Xiangshuai Lv、Guoqiang Zheng(通讯作者)、Huihui Zhai、Keke Zhou和Weizhen Zhang合作完成,发表于期刊《Computers and Electrical Engineering》2024年第119卷(页码109540)。
学术背景
疲劳驾驶是交通事故的主要诱因之一,全球每年因疲劳驾驶导致的死亡人数高达1500人(美国数据)。传统疲劳检测方法主要依赖生理信号(如ECG/EEG)或车辆行为分析,但存在侵入性强或环境敏感性高的缺陷。基于视觉特征的方法虽具有非接触优势,但多数仅利用单帧图像的空间特征(Spatial Features),忽略了疲劳状态的时序连续性(Temporal Continuity)。现有视频行为识别方法(如3D-CNN或双流网络)虽能捕捉时序信息,但存在参数量大或光流计算复杂的问题。为此,本研究提出结合时空自适应网络(Temporal-Spatial Adaptive Networks, TSNet)与自适应时间融合模块(Adaptive Temporal Fusion Module, ATFM)的新方法,旨在高效提取视频时序特征并自适应融合关键帧信息,提升疲劳检测精度。
研究流程与方法
1. 数据预处理
- 数据集:采用NTHU-DDD数据集,包含5种场景(裸脸、戴眼镜、夜间裸脸、夜间戴眼镜、太阳镜)的驾驶视频,共9151个片段(训练集7670,验证集1481),每段视频时长1-4秒,标注为“疲劳”或“清醒”状态。
- 采样与增强:对输入视频进行跨步采样(Strided Sampling),分为T段(T=8),每段随机抽取1帧组成帧序列,并通过多尺度裁剪和水平翻转增强数据。
特征提取(TSNet)
分数融合(ATFM)
主要结果
1. 模块性能对比
- TSNet:在NTHU-DDD数据集上准确率达89.06%,较基线模型TAM(87.87%)和TSM(87.63%)提升1.19%和1.43%,参数量仅24.69M,低于3D-CNN类方法。
- ATFM:准确率88.35%,较平均融合(Avg)和LSTM融合分别提升1.19%和1.31%,且参数量未显著增加。
结论与价值
1. 科学价值
- 提出TSAM模块,首次在疲劳检测中联合时空注意力机制与自适应时序建模,解决了传统方法时序特征提取不充分的问题。
- 设计ATFM模块,通过动态权重学习强化关键帧作用,为视频分类任务提供通用融合策略。
研究亮点
1. 创新性方法:TSNet首次将EfficientNet-V2与时空自适应模块结合,兼顾效率与精度;ATFM突破传统平均融合局限,实现关键帧自适应加权。
2. 全面实验验证:通过模块消融实验、多场景测试及Friedman排名,验证方法优越性。
3. 开源与可扩展性:代码基于PyTorch实现,支持后续研究扩展至其他行为识别任务。
局限与展望
当前方法在极端光照或遮挡场景(如太阳镜)性能有待提升,未来将探索多模态数据融合(如红外图像)以增强鲁棒性。