分享自:

基于时空自适应网络和自适应时间融合模块的驾驶员疲劳检测方法

期刊:computers and electrical engineeringDOI:10.1016/j.compeleceng.2024.109540

基于时空自适应网络(TSNet)与自适应时间融合模块(ATFM)的驾驶员疲劳检测方法学术报告

作者及机构
本研究由河南科技大学的Xiangshuai Lv、Guoqiang Zheng(通讯作者)、Huihui Zhai、Keke Zhou和Weizhen Zhang合作完成,发表于期刊《Computers and Electrical Engineering》2024年第119卷(页码109540)。

学术背景
疲劳驾驶是交通事故的主要诱因之一,全球每年因疲劳驾驶导致的死亡人数高达1500人(美国数据)。传统疲劳检测方法主要依赖生理信号(如ECG/EEG)或车辆行为分析,但存在侵入性强或环境敏感性高的缺陷。基于视觉特征的方法虽具有非接触优势,但多数仅利用单帧图像的空间特征(Spatial Features),忽略了疲劳状态的时序连续性(Temporal Continuity)。现有视频行为识别方法(如3D-CNN或双流网络)虽能捕捉时序信息,但存在参数量大或光流计算复杂的问题。为此,本研究提出结合时空自适应网络(Temporal-Spatial Adaptive Networks, TSNet)与自适应时间融合模块(Adaptive Temporal Fusion Module, ATFM)的新方法,旨在高效提取视频时序特征并自适应融合关键帧信息,提升疲劳检测精度。

研究流程与方法
1. 数据预处理
- 数据集:采用NTHU-DDD数据集,包含5种场景(裸脸、戴眼镜、夜间裸脸、夜间戴眼镜、太阳镜)的驾驶视频,共9151个片段(训练集7670,验证集1481),每段视频时长1-4秒,标注为“疲劳”或“清醒”状态。
- 采样与增强:对输入视频进行跨步采样(Strided Sampling),分为T段(T=8),每段随机抽取1帧组成帧序列,并通过多尺度裁剪和水平翻转增强数据。

  1. 特征提取(TSNet)

    • 网络结构:以EfficientNet-V2为基础框架,嵌入时空自适应模块(TSAM)构建TSNet。TSAM包含局部分支(短时序通道/空间注意力)和全局分支(自适应卷积核生成),通过以下流程提取特征:
      • 通道局部分支:一维卷积(Kernel=3)生成通道注意力权重,增强判别性通道特征。
      • 空间局部分支:二维卷积(Kernel=7)结合最大/平均池化,聚焦空间关键区域。
      • 全局分支:全连接层学习视频自适应的时序卷积核,聚合全局时序信息。
    • 模块组合:TSNet包含7个阶段,前3阶段使用Fused-MBConv提取浅层空间特征,后4阶段通过TSAM-MBConv联合提取深层时空特征。
  2. 分数融合(ATFM)

    • 自适应权重学习:ATFM通过全连接层学习各帧分类分数的权重,Softmax归一化后加权融合。关键帧(如闭眼、打哈欠)权重更高,显著影响最终预测结果。

主要结果
1. 模块性能对比
- TSNet:在NTHU-DDD数据集上准确率达89.06%,较基线模型TAM(87.87%)和TSM(87.63%)提升1.19%和1.43%,参数量仅24.69M,低于3D-CNN类方法。
- ATFM:准确率88.35%,较平均融合(Avg)和LSTM融合分别提升1.19%和1.31%,且参数量未显著增加。

  1. 整体方法表现
    • 联合TSNet与ATFM:准确率提升至89.42%,F1分数达90.97%,参数量24.70M。在5种场景中表现稳健,裸脸场景最高(92.53%),太阳镜场景受遮挡影响稍低(82.35%)。
    • 对比现有方法:优于2D-CNN+LSTM(87.19%)、3D-CNN(75.91%)等,且模型复杂度更低(MRV=1.5,Friedman测试最优)。

结论与价值
1. 科学价值
- 提出TSAM模块,首次在疲劳检测中联合时空注意力机制与自适应时序建模,解决了传统方法时序特征提取不充分的问题。
- 设计ATFM模块,通过动态权重学习强化关键帧作用,为视频分类任务提供通用融合策略。

  1. 应用价值
    • 可部署于车载边缘设备,实时监测驾驶员状态,降低交通事故风险。
    • 方法轻量化(参数量<25M)且无需光流计算,适合实际场景应用。

研究亮点
1. 创新性方法:TSNet首次将EfficientNet-V2与时空自适应模块结合,兼顾效率与精度;ATFM突破传统平均融合局限,实现关键帧自适应加权。
2. 全面实验验证:通过模块消融实验、多场景测试及Friedman排名,验证方法优越性。
3. 开源与可扩展性:代码基于PyTorch实现,支持后续研究扩展至其他行为识别任务。

局限与展望
当前方法在极端光照或遮挡场景(如太阳镜)性能有待提升,未来将探索多模态数据融合(如红外图像)以增强鲁棒性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com