徐敬一(上海工程技术大学电子电气工程学院)、田瑾(上海工程技术大学电子电气工程学院)、刘翔(上海工程技术大学电子电气工程学院)、龚利(华东师范大学通信与电子工程学院)的研究团队于2024年在《传感器与微系统》(Transducer and Microsystem Technologies)第43卷第4期发表了题为《基于注意力机制改进的疲劳驾驶检测方法》的原创性研究论文。该研究针对现有疲劳驾驶检测算法因特征信息丢失导致的泛化性差、漏检率高等问题,提出了一种融合注意力机制(attention mechanism)与长短期记忆(LSTM)神经网络的创新模型。
疲劳驾驶是引发交通事故的主要因素之一,现有基于视觉的检测方法(如PERCLOS算法、卷积神经网络等)通常依赖单帧面部特征(如眼部闭合度、打哈欠频率)的静态分析,难以有效捕捉时序特征,且在遮挡或角度不佳时性能显著下降。研究团队发现,特征丢失会导致历史数据对当前状态判断的干扰,而传统方法在平衡准确率与漏检率方面存在瓶颈。因此,本研究旨在通过多维特征向量建模与动态权重分配,提升复杂环境下的检测鲁棒性。
研究采用NTHU Drowsy Driver Detection (DDD)数据集,包含600组驾驶视频(每组500帧),并额外构建120组含特征丢失的异常片段作为对照。通过尺度不变特征变换(SIFT)算法定位面部关键点:
- 嘴部特征:提取12个定位点(如嘴角p1-p7、上下唇中心点),计算嘴部纵横比(公式2),反映张嘴程度。
- 眼部特征:每只眼6个定位点(如眼角p1-p6),通过纵横比(公式3)量化眼睛张合状态。
- 头部姿态:基于鼻梁、眼角等6点坐标,计算偏航角(αyaw)、俯仰角(αpitch)和滚转角(αroll)(公式5),估计头部空间位置。
构建双向LSTM网络学习特征向量的时序关系。其单元结构包含遗忘门、输入门和输出门(公式1),通过门控机制筛选长期记忆(ct)与短期记忆(ht),解决传统RNN的梯度消失问题。
在LSTM的编码器(encoder)与解码器(decoder)间引入注意力层(图1),通过以下步骤动态加权特征重要性:
- 编码阶段:将特征序列输入LSTM,生成隐含状态概率向量ht,压缩为语义向量c(公式6)。
- 注意力分配:计算各时间步的注意力权重αit(公式7),加权融合历史隐含状态得到上下文向量ci。
- 解码阶段:将ci与当前输入ct相乘(公式8),通过softmax归一化输出疲劳概率。
采用五折交叉验证,训练集、测试集、验证集比例为48:12:1。评估指标包括:
- 查准率(P)与查全率(R):衡量模型综合性能。
- 漏检率:关键指标,反映疲劳状态未被识别的比例(公式9)。
对照组测试了不同模型在特征丢失场景下的表现(表1),包括眼部、嘴部、头部区域遮挡及多特征丢失情况。
该研究通过注意力机制与LSTM的协同设计,实现了以下突破:
- 科学价值:提出了一种时序特征动态加权方法,解决了疲劳检测中特征丢失导致的参数干扰问题,为时序数据分析提供了新思路。
- 应用价值:模型在复杂驾驶场景(如遮挡、光线变化)中表现稳健,可集成至车载预警系统,降低交通事故风险。
研究公开了对照数据集(含120组特征丢失视频),为后续抗干扰算法研究提供基准。未来可通过增加特征区间(如手部动作、心率信号)进一步优化模型普适性。