分享自:

基于特征参数图像和残差Swin Transformer的疲劳驾驶识别方法

期刊:sensorsDOI:10.3390/s24020636

学术报告:基于特征参数图像和残差Swin Transformer的疲劳驾驶识别方法

1. 作者与发表信息

本研究由Xiao, W.Liu, H.(通讯作者)、Ma, Z.Chen, W.Hou, J.合作完成,作者单位包括湖南大学电气与信息工程学院(中国长沙)和湖南城市学院信息与电子工程学院(中国益阳)。论文标题为《FPIRST: Fatigue Driving Recognition Method Based on Feature Parameter Images and a Residual Swin Transformer》,发表于期刊Sensors(2024年1月19日),卷24期2,文章编号636,开放获取(CC BY 4.0许可)。

2. 研究背景

科学领域:本研究属于智能交通与计算机视觉交叉领域,聚焦于疲劳驾驶行为的实时识别技术。
研究动机:疲劳驾驶是交通事故的主因之一(美国每年超10万起事故与之相关),现有方法因光照条件、个体差异(如戴眼镜)和连续性行为特征难以准确识别。传统方法依赖固定阈值或支持向量机(SVM),但存在泛化性差、计算复杂度高的问题。
研究目标:提出一种结合多尺度面部关键点检测、特征参数图像构建和残差Swin Transformer(Swin Transformer with Residual Connections, RST)的新方法,以提高疲劳驾驶识别的准确率。

3. 研究流程与方法

3.1 数据采集与预处理
  • 数据集:使用自建的HNUFD数据集,包含41名驾驶员(26男/15女)的341段视频(15秒/段),涵盖不同光照条件(晴天、雨天、夜间)和驾驶行为(打瞌睡、打哈欠、正常等)。视频分辨率1920×1080,25帧/秒。
  • 面部检测:采用空间金字塔池化多尺度特征输出模块(SPP-MSFo)定位面部区域,通过多尺度面部关键点检测器(MSFLD)标记23个关键点坐标(如眼部、嘴部轮廓)。
3.2 特征参数提取与图像生成
  • 关键参数计算
    • 眼部纵横比(EAR):通过公式 ( EAR = \frac{y_{13} - y_7}{x_8 - x6} )(左眼)和 ( EAR = \frac{y{12} - y{10}}{x{11} - x_9} )(右眼)量化眼睛开合状态。
    • 嘴部纵横比(MAR):通过 ( MAR = \frac{y{21} - y{19}}{x{20} - x{18}} ) 检测打哈欠行为。
  • 特征矩阵构建:将连续帧的EAR和MAR值组成 ( n \times 3 ) 矩阵,通过滑动窗口技术(窗口大小k=25/50/75/100/125帧)扩展为224×224矩阵,并转换为灰度图像(特征参数图像),保留时间序列信息。
3.3 残差Swin Transformer模型设计
  • 网络架构
    • 四阶段编码:包括线性嵌入层和三个阶段的下采样(Patch Merging),每阶段通过Swin Transformer块(Shifted Window Multi-head Self-Attention, SW-MSA)提取多尺度特征。
    • 残差连接:将浅层细节特征(如眼部轮廓)与深层语义特征(如疲劳状态)融合,缓解梯度消失问题。
  • 创新点
    • 窗口注意力机制:通过局部窗口计算降低复杂度,并通过窗口偏移实现全局交互。
    • 动态适应能力:模型可针对不同驾驶员的面部特征(如戴眼镜)自适应调整识别阈值。

4. 研究结果

4.1 消融实验
  • 模块对比:完整方法(FPIRST)在HNUFD测试集上准确率达96.4029%,显著高于单一模块组合(如仅用Swin Transformer的84.8921%)。
  • 滑动窗口优化:当滑动帧数k=75(3秒)时,准确率最高(96.512%),平衡了实时性与连续性需求。
4.2 对比实验

与现有方法相比:
- 阈值法[6]:依赖固定统计阈值,准确率86.33%。
- SVM[8]:对缺失数据敏感,准确率74.10%。
- LSTM[9]:长序列依赖建模不足,准确率82.73%。
- Bi-LSTM[10]:虽提升至85.61%,但计算成本较高。
FPIRST的残差结构和特征图像化处理使其准确率提升约10%。

5. 结论与价值

科学价值
- 提出特征参数图像的概念,将时序疲劳特征编码为空间信息,解决了传统方法难以捕捉连续行为的问题。
- 残差Swin Transformer通过跨阶段特征融合,增强了模型对细微疲劳标志(如眨眼频率)的敏感性。
应用价值
- 可集成至车载系统,实现实时疲劳预警(0.0042秒/帧)。
- 模型参数量277万,在RTX 3090 GPU上训练耗时1300秒,具备工程落地潜力。

6. 研究亮点

  • 多模态特征融合:结合几何特征(EAR/MAR)与深度学习,提升鲁棒性。
  • 轻量化设计:通过滑动窗口减少冗余计算,适合嵌入式部署。
  • 数据集贡献:公开HNUFD数据集,涵盖多样驾驶场景。

7. 局限与展望

当前方法对极端环境(如隧道内驾驶)的适应性不足,未来拟引入头部姿态和表情数据,并开发轻量化算法以满足实时性需求。

(注:术语翻译说明:Swin Transformer=滑动窗口变压器,SPP-MSFo=空间金字塔池化多尺度特征输出,MSFLD=多尺度面部关键点检测器,EAR=眼部纵横比,MAR=嘴部纵横比)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com