关于“基于证据推理的多层次EEG-EOG融合框架用于驾驶员疲劳检测”研究的学术报告
本研究由南京航空航天大学航天学院的Muheng Ding*、Bowen Li、Meihua Fang、Zhiyong Wei和Ming Zhang共同完成。该研究论文以“A multilevel EEG-EOG fusion framework for driver fatigue detection using evidential reasoning”为题,发表于期刊 *Biomedical Signal Processing and Control*,于2026年3月30日在线发表,刊载于该刊第120卷,文章编号110176。
一、 研究背景与目的
本研究属于生物医学信号处理与智能交通安全的交叉领域,具体聚焦于基于生理信号的驾驶员疲劳检测。驾驶员疲劳是导致严重交通事故的主要危险因素之一,因此开发可靠、实时的疲劳监测系统对提升道路安全至关重要。近年来,基于深度学习与多模态生理信号(如脑电图EEG和眼电图EOG)的疲劳检测方法取得了显著进展。然而,现有研究仍面临两大核心挑战:首先,单模态方法(仅使用EEG或EOG)在噪声环境下表现不稳定;其次,许多多模态融合方法缺乏对预测不确定性的显式建模与处理,这在安全攸关的应用场景中是一个重大缺陷,因为模型可能在面对噪声或冲突的感官输入时产生高置信度的错误预测。
针对上述问题,本研究旨在提出一个创新性的多层次EEG-EOG融合框架,以提升疲劳状态识别的准确性和鲁棒性。研究的核心目标在于:1)系统性地将证据不确定性建模整合到EEG-EOG多模态疲劳检测流程中,实现对认知不确定性的显式估计;2)提出一种不确定性引导的多模态生理信号融合策略,能够在证据冲突条件下自适应地整合EEG和EOG证据,从而在无需对目标驾驶员进行校准的跨被试评估场景下提升模型的稳健性。
二、 详细研究流程与方法
本研究基于公开的SEED-VIG数据集展开,该数据集由上海交通大学BCMI实验室提供,包含23名参与者在模拟驾驶任务中同步采集的17通道EEG信号和7通道前额EOG信号,总时长为每人7080秒。数据被分割为8秒的样本段,共计20,355个样本。疲劳标签通过参与者佩戴的SMI眼动仪计算的PERCLOS指数来标记,并依据阈值划分为“正常”、“疲劳”和“困倦”三类。
研究流程主要包含以下几个关键步骤:
1. 数据预处理与特征构建: * EEG特征构建:研究设计了一个结构化的4维张量来捕获EEG信号的时域、频域和空域信息。具体流程为:a) 将8秒样本进一步用1秒无重叠滑动窗分为8个时间窗;b) 对每个时间窗内每个通道的信号,分解为δ、θ、α、β、γ五个标准频带;c) 最初计算了9种特征,包括过零率、均值、标准差、一阶差分、二阶差分、峰度、偏度、功率谱密度和微分熵;d) 通过皮尔逊相关性分析和随机森林特征重要性分析进行特征筛选,最终确定微分熵作为最具判别力且受被试间差异影响最小的特征;e) 构建最终的四维输入张量,维度为(时间步长×特征数×通道数×频带数)=(8 × 1 × 17 × 5)。 * EOG特征构建:从EOG信号中提取了36个与眨眼、注视和扫视活动相关的统计特征(如最小、平均、最大值、持续时间等)。尽管相关性分析筛选出7个显著相关特征,但后续的消融实验表明,使用全部36个特征向量能获得更好的跨被试泛化性能,因此最终采用完整的36维特征向量作为EOG分支的输入。
2. 单模态分类与证据输出生成: 研究为两种模态分别设计了神经网络模型,并采用证据深度学习范式,将网络最后一层的原始输出(logits)视为“证据”向量,而非直接通过Softmax输出概率。 * EEG分支:设计了一个CBAM-4D-CRNN网络。该网络专门处理4D EEG特征张量。首先,输入数据经过一个卷积块注意力模块,该模块包含通道注意力和空间注意力两个子模块,使模型能动态关注与疲劳相关的空间和频谱模式。随后,特征经过三层CNN和一层最大池化进行深层特征提取,再通过一个LSTM网络捕获时间依赖性,最后经由全连接层输出一个3维的证据向量(对应三个疲劳类别)。 * EOG分支:采用一个简单的前馈神经网络,包含两个全连接层,将36维EOG特征向量映射为3维证据向量。
3. 基于改进证据理论的决策级融合: 这是本研究的核心创新点。传统神经网络常因Softmax层而产生过度自信的预测。本研究移除了单模态网络的Softmax层,将证据向量通过主观逻辑框架转化为基本概率分配函数。 * 不确定性建模:对于每个模态的证据向量,研究者将其参数化为一个狄利克雷分布。该分布的参数由证据值加1得到。通过狄利克雷分布的参数,可以同时计算出每个类别的信度质量(即支持该类别的证据强度)和总体不确定性质量。证据越强,信度越高,不确定性越低。 * 证据融合:获得EEG和EOG各自的信度质量和不确定性质量后,采用Dempster-Shafer证据理论的融合规则进行决策级融合。该规则能够处理模态间的冲突证据。当两个模态的证据一致时,融合后的信度会增强;当证据冲突时,规则会考虑各自的不确定性,自适应地调整融合权重,不确定性高的模态贡献的权重会降低,从而得到更稳健的联合决策。 * 损失函数:训练时采用证据深度学习特有的损失函数,包含两部分:一是基于狄利克雷分布的期望交叉熵损失,鼓励模型为正确类别提供更多证据;二是KL散度正则项,用于减少模型分配给错误类别的证据,防止过度拟合。
4. 实验设计与评估: 研究采用两种协议进行评估: * 被试内验证:将所有23名被试的数据混合后随机打乱,进行10折交叉验证,用于评估模型在“见过”被试数据时的分类能力上限。 * 留一被试交叉验证:每次将一名被试的数据作为测试集,其余22名被试的数据作为训练集,重复23次取平均。这是一种严格的“零样本”跨被试评估协议,模拟模型应用于全新、未校准驾驶员时的真实场景,是评估泛化能力的关键。 评估指标包括准确率、精确率、召回率和F1分数。
三、 主要研究结果
1. 特征选择有效性:消融实验表明,EEG分支仅使用DE特征,EOG分支使用全部36维特征,这种“非对称特征输入策略”在LOSO协议下取得了最佳性能(78.43%准确率),优于使用更多EEG特征或筛选后EOG特征的组合。这揭示了EEG的幅值类特征易受被试间差异干扰,而EOG的丰富统计特征则有助于跨被试泛化。
2. 单模态基线性能: * 被试内验证:EEG模型准确率为80.03%,EOG模型准确率为90.05%,表明在个体数据已知时,EOG信号对疲劳状态具有更强的判别力。 * LOSO验证:EEG模型准确率大幅下降至66.68%,而EOG模型相对稳定,为76.00%。这凸显了EEG信号存在显著的被试间变异性,其模式在不同个体间差异较大,而EOG的统计特征则更为稳定。同时,两个模型在不同疲劳状态上的识别偏好也不同:EEG模型对“疲劳”状态敏感(召回率高),而EOG模型擅长识别“正常”状态。
3. 多模态融合框架性能: * 被试内验证:所提出的证据融合方法取得了95.11% 的准确率,显著优于两个单模态基线,证明了多模态信息融合的有效性。 * LOSO验证:融合框架取得了78.43% 的准确率,优于EEG-only和EOG-only基线,也显著优于使用传统Softmax概率平均的确定性融合方法(71.80%)。这表明,在跨被试场景下,证据理论的不确定性引导融合策略能够有效处理模态间的冲突证据,提升决策的鲁棒性。混淆矩阵和ROC曲线分析显示,融合模型成功结合了EEG对“疲劳”状态的敏感性和EOG对“正常”状态的稳健性,并在“困倦”状态的识别上取得了最大提升。
4. 消融研究与分析: * 注意力机制:移除CBAM模块导致LOSO准确率下降10.11%,证明了该模块对于从高维EEG张量中过滤无关噪声、聚焦疲劳相关模式至关重要。Grad-CAM可视化显示,CBAM能自动增强与疲劳相关的低频(δ、θ)活动,并抑制可能由肌肉伪迹引起的高频γ活动。 * 不确定性估计的有效性:定量分析表明,模型错误分类的样本具有显著更高的不确定性分数。通过拒绝高不确定性样本的“风险-覆盖率”分析显示,保留数据的分类准确率随拒绝比例增加而单调上升,证实了模型不确定性估计可作为可靠的可靠性指标。 * 统计显著性:Wilcoxon符号秩检验证实,所提出的融合方法在准确率上显著优于EEG-only和EOG-only基线。
5. 与现有方法的比较: 在SEED-VIG数据集上,本研究的融合方法在被试内准确率(95.11%) 上优于近年来的代表性方法(如SFT-Net, CSF-GTNet, T-A-MFFNet, CM-FusionNet等)。更重要的是,在跨被试(LOSO)准确率(78.43%) 上,本研究方法超越了仅使用EEG的先进方法(如EEGNet, ICNN, InstanceEasyTL)以及确定性融合的多模态方法(如CSF-GTNet, CM-FusionNet),证明了其在不依赖目标被试校准数据情况下的优越泛化能力。
四、 研究结论与价值
本研究成功构建并验证了一个基于证据推理的多层次EEG-EOG融合框架,用于驾驶员疲劳检测。核心结论是:将证据深度学习与Dempster-Shafer证据理论相结合,能够对多模态生理信号预测中的认知不确定性进行显式建模,并通过不确定性引导的动态融合机制,有效整合互补的神经(EEG)和眼动(EOG)信息。该策略显著提升了模型在面对被试间变异性和噪声干扰时的鲁棒性,在严格的零样本跨被试评估中取得了优越性能。
其科学价值在于为安全攸关的生理监测任务提供了一种新的不确定性感知融合范式。该方法不仅输出分类决策,还提供了决策可信度的量化指标,这对于实际应用中触发分级预警、防止误报至关重要。应用价值体现在该框架为开发更可靠、无需个人校准的实时驾驶员疲劳监控系统提供了可行的技术路径。计算复杂度分析表明,该模型在普通CPU上单样本推理时间约13毫秒,满足实时性要求,具备部署于车载边缘计算平台的潜力。
五、 研究亮点与创新
六、 其他有价值内容
研究也坦诚指出了当前工作的局限性并展望了未来方向:1)验证仅基于实验室数据集(SEED-VIG),未来需在自然驾驶数据集(如DROZY)和真实道路实验中进一步验证;2)未来可探索融合更多模态(如ECG、面部视频)以构建更全面的监测系统;3)可尝试结合深度学习的表征能力与具有明确生理意义的特征(如眨眼率变异性),以提升模型的可解释性;4)推动面向可穿戴干电极EEG设备和集成EOG传感器的智能眼镜的轻量化部署。这些思考为后续研究提供了清晰的路线图。