本研究由同济大学计算机科学与技术学院的Zhen Gao、Xiaowen Chen、Jingning Xu(通讯作者)团队主导,联合香港城市大学计算机科学系、同济大学交通运输工程学院、浙江风行慧云科技有限公司及加拿大康考迪亚大学计算机科学与软件工程系共同完成。研究成果以《Semantically-Enhanced Feature Extraction with CLIP and Transformer Networks for Driver Fatigue Detection》为题,于2024年12月12日发表在MDPI旗下期刊《Sensors》第24卷第7948页,文章DOI号为10.3390/s24247948。
疲劳驾驶是导致商用车交通事故的主要原因之一。美国国家安全委员会(NSC)数据显示,美国每年因疲劳驾驶引发约10万起事故,造成1550人死亡和7.1万人受伤,占所有事故的9.5%。中国媒体报道显示,长途客货运司机疲劳驾驶现象普遍存在,84%的货运司机每日驾驶超过8小时,40%超过12小时。虽然中国政府已规定商用驾驶员24小时内累计驾驶不得超过8小时,但工作压力和安全意识不足导致疲劳驾驶仍普遍存在。
当前疲劳驾驶检测方法主要分为四类:(1)基于驾驶员个体状态(睡眠质量、精神状态等);(2)基于车辆运动参数(车道偏离、方向盘运动等);(3)基于驾驶员视频行为分析;(4)基于生理信号(心电图EEG、脑电图ECG等)。其中视频行为分析方法因其非侵入性、成本低且易于实施而成为研究热点。然而现有基于深度学习的疲劳检测模型存在两大挑战:一是高层次特征提取不够精细和完整;二是网络架构优化不足。传统CNN-LSTM(卷积神经网络-长短期记忆网络)模型在提取长期时间依赖特征方面存在局限,且从头训练的模型受限于标注数据量和质量。
本研究创新性地提出CT-Net(CLIP-Transformer Network)模型架构,主要包含三个关键技术环节:
研究团队与大型物流公司合作,收集了25,000段自然驾驶状态下的驾驶员6秒视频片段,分辨率1280×720,帧率15-25fps,涉及4851辆不同车辆。数据集包含各种天气条件(晴天、雨天、多云)和光照环境(白天、夜间),同时涵盖戴口罩、戴墨镜等多种复杂场景。数据按80%-10%-10%比例划分为训练集、验证集和测试集。基于Karolinska睡眠量表(KSS)将视频标注为两种方案:二分类(疲劳/非疲劳)和三分类(非疲劳/疲劳/高风险)。
研究首次将CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)模型应用于疲劳检测。CLIP模型基于4亿网络图像-文本对进行预训练,包含图像编码器(采用ResNet50架构)和文本编码器。研究对原始ResNet50进行改进,将avgpool替换为attentionpool,通过多头自注意力机制和位置编码精确定位驾驶员的多维疲劳特征。图像编码器输出1024维特征向量,文本编码器用于后续语义解释。
将视频多帧特征输入Transformer网络提取长期时间行为特征。创新性地采用实例归一化(Instance Normalization)过滤视频帧间不变特征(如车内背景),同时添加位置编码提供时间信息。最后通过MLP分类器输出疲劳概率。模型训练时,CLIP图像编码器参数进行微调,Transformer和MLP参数从头训练。
在相同测试集上,CT-Net模型AUC(曲线下面积)达到0.892,准确率84%,召回率78.5%,精确率64.6%,F1分数0.709。相比基线CNN-LSTM模型(AUC 0.657)提升36%,达到当前最优(SOTA)性能。消融实验显示: - 用ImageNet预训练模型替换CLIP导致AUC下降0.056 - 用LSTM替换Transformer导致AUC下降0.034 - 同时替换两者导致AUC下降0.081
CT-Net创新性地实现了疲劳检测与行为语义解释的双重功能。通过设计的prompt模板(如表2所示),模型可实时输出驾驶员眼睛状态(睁眼/闭眼)、嘴巴状态(打哈欠/未打哈欠)以及使用手机、进食等多种行为概率曲线。图3-5展示了不同疲劳状态下眼睛闭合和打哈欠的持续时间特征,为模型决策提供可解释依据。
在三分类任务中,模型平均AUC达0.874,准确率81%。对218例高风险疲劳行为,识别准确率达72%;2065例非疲劳样本中误报率仅7%,满足实际应用需求。
本研究的主要贡献包括: 1. 方法学创新:首次将CLIP预训练模型应用于疲劳检测,利用其零样本迁移能力识别更丰富的驾驶员行为特征;创新性地采用Transformer捕捉长期时间依赖模式,结合实例归一化提升检测精度。 2. 技术方案:提出端到端的CT-Net建模方法,实现实时驾驶员疲劳检测与语义解释,AUC比传统CNN-LSTM模型提升36%。 3. 应用价值:基于大规模自然驾驶数据(25,000段视频)验证模型有效性,为商用车队安全管理提供智能化解决方案。
研究亮点体现在: - CLIP模型提取的语义增强特征比传统ImageNet预训练模型提升7% AUC - Transformer比LSTM更好地捕捉长期依赖关系,提升4% AUC - 首创的语义解释功能增强模型可信度,支持”闭眼2秒”等具体行为描述
作者指出当前研究存在两方面局限:一是语义解释依赖人工设计的prompt,未来可探索prompt自动生成;二是CLIP作为图像模型对视频数据的适应性不足,建议尝试语言-视频预训练模型。此外,还需在更多实际场景中验证模型的泛化能力,并研究在有限计算资源下的优化方法。
这项研究为智能交通系统中的驾驶员状态监控提供了新范式,其CLIP-Transformer架构具有通用视觉表示能力,可扩展应用于其他行为分析任务,推动深度学习模型的可解释性发展。研究成果对提升道路交通安全、减少疲劳驾驶事故具有重要实践意义。