基于时空自适应网络和自适应时间融合模块的驾驶员疲劳检测方法

分享自：

基于时空自适应网络和自适应时间融合模块的驾驶员疲劳检测方法

生物医学工程

信息科学

医学

人工智能

计算机科学

期刊:computers and electrical engineeringDOI:10.1016/j.compeleceng.2024.109540

【点击此处】阅读全文、收藏及针对性提问

基于时空自适应网络（TSNet）与自适应时间融合模块（ATFM）的驾驶员疲劳检测方法学术报告
作者及机构
 本研究由河南科技大学的Xiangshuai Lv、Guoqiang Zheng（通讯作者）、Huihui Zhai、Keke Zhou和Weizhen Zhang合作完成，发表于期刊《Computers and Electrical Engineering》2024年第119卷（页码109540）。
学术背景
 疲劳驾驶是交通事故的主要诱因之一，全球每年因疲劳驾驶导致的死亡人数高达1500人（美国数据）。传统疲劳检测方法主要依赖生理信号（如ECG/EEG）或车辆行为分析，但存在侵入性强或环境敏感性高的缺陷。基于视觉特征的方法虽具有非接触优势，但多数仅利用单帧图像的空间特征（Spatial Features），忽略了疲劳状态的时序连续性（Temporal Continuity）。现有视频行为识别方法（如3D-CNN或双流网络）虽能捕捉时序信息，但存在参数量大或光流计算复杂的问题。为此，本研究提出结合时空自适应网络（Temporal-Spatial Adaptive Networks, TSNet）与自适应时间融合模块（Adaptive Temporal Fusion Module, ATFM）的新方法，旨在高效提取视频时序特征并自适应融合关键帧信息，提升疲劳检测精度。
研究流程与方法
 1. 数据预处理
 - 数据集：采用NTHU-DDD数据集，包含5种场景（裸脸、戴眼镜、夜间裸脸、夜间戴眼镜、太阳镜）的驾驶视频，共9151个片段（训练集7670，验证集1481），每段视频时长1-4秒，标注为“疲劳”或“清醒”状态。
 - 采样与增强：对输入视频进行跨步采样（Strided Sampling），分为T段（T=8），每段随机抽取1帧组成帧序列，并通过多尺度裁剪和水平翻转增强数据。
特征提取（TSNet）
网络结构：以EfficientNet-V2为基础框架，嵌入时空自适应模块（TSAM）构建TSNet。TSAM包含局部分支（短时序通道/空间注意力）和全局分支（自适应卷积核生成），通过以下流程提取特征：
 通道局部分支：一维卷积（Kernel=3）生成通道注意力权重，增强判别性通道特征。
 
空间局部分支：二维卷积（Kernel=7）结合最大/平均池化，聚焦空间关键区域。
 
全局分支：全连接层学习视频自适应的时序卷积核，聚合全局时序信息。
 
模块组合：TSNet包含7个阶段，前3阶段使用Fused-MBConv提取浅层空间特征，后4阶段通过TSAM-MBConv联合提取深层时空特征。
 
分数融合（ATFM）
自适应权重学习：ATFM通过全连接层学习各帧分类分数的权重，Softmax归一化后加权融合。关键帧（如闭眼、打哈欠）权重更高，显著影响最终预测结果。
 
主要结果
 1. 模块性能对比
 - TSNet：在NTHU-DDD数据集上准确率达89.06%，较基线模型TAM（87.87%）和TSM（87.63%）提升1.19%和1.43%，参数量仅24.69M，低于3D-CNN类方法。
 - ATFM：准确率88.35%，较平均融合（Avg）和LSTM融合分别提升1.19%和1.31%，且参数量未显著增加。
整体方法表现
 联合TSNet与ATFM：准确率提升至89.42%，F1分数达90.97%，参数量24.70M。在5种场景中表现稳健，裸脸场景最高（92.53%），太阳镜场景受遮挡影响稍低（82.35%）。
 
对比现有方法：优于2D-CNN+LSTM（87.19%）、3D-CNN（75.91%）等，且模型复杂度更低（MRV=1.5，Friedman测试最优）。
 
结论与价值
 1. 科学价值
 - 提出TSAM模块，首次在疲劳检测中联合时空注意力机制与自适应时序建模，解决了传统方法时序特征提取不充分的问题。
 - 设计ATFM模块，通过动态权重学习强化关键帧作用，为视频分类任务提供通用融合策略。
应用价值
 可部署于车载边缘设备，实时监测驾驶员状态，降低交通事故风险。
 
方法轻量化（参数量<25M）且无需光流计算，适合实际场景应用。
 
研究亮点
 1. 创新性方法：TSNet首次将EfficientNet-V2与时空自适应模块结合，兼顾效率与精度；ATFM突破传统平均融合局限，实现关键帧自适应加权。
 2. 全面实验验证：通过模块消融实验、多场景测试及Friedman排名，验证方法优越性。
 3. 开源与可扩展性：代码基于PyTorch实现，支持后续研究扩展至其他行为识别任务。
局限与展望
 当前方法在极端光照或遮挡场景（如太阳镜）性能有待提升，未来将探索多模态数据融合（如红外图像）以增强鲁棒性。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问