基于多模态混合卷积神经网络的疲劳检测方法MHCNN-STF

分享自：
基于多模态混合卷积神经网络的疲劳检测方法MHCNN-STF

生物医学工程
医学
信息科学
神经系统
人工智能
期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2026.109862
【点击此处】阅读全文、收藏及针对性提问
本研究发表于期刊《Biomedical Signal Processing and Control》2026年第119卷，论文题目为“MHCNN-STF: A fatigue detection method based on multimodal hybrid CNNs”。主要作者为来自吉林大学通信工程学院的Ziqi Wang、Lin Lin（通讯作者）、Beiming Zhou和Jian Chen（通讯作者）。
学术背景 该研究属于生物医学信号处理与智能交通的交叉领域，具体聚焦于驾驶员疲劳检测。近年来，交通安全事故频发，疲劳驾驶是重要诱因之一，因此开发高效、准确的疲劳检测方法对保障道路交通安全至关重要。现有的疲劳检测方法主要分为基于行为（如视频分析面部表情、眼动）和基于生理信号两大类。在生理信号方法中，脑电图（Electroencephalogram， EEG）和眼电图（Electrooculogram， EOG）因其能直接反映大脑认知状态和视觉注意力，被视为评估警觉度的更可靠指标。
然而，当前主流方法面临两大挑战：第一，单一模态的生理信号（如仅使用EEG或仅使用EOG）信息不完整，且易受噪声干扰，难以全面表征疲劳状态；第二，传统模型往往依赖于低维特征表示，限制了其捕捉信号在空间、时间和频率等多维度间结构性依赖关系的能力。尽管已有研究尝试融合多模态生理信号以提升性能，但如何实现稳健、高效的跨模态特征对齐与融合，并全面整合信号的时空频多维特征，仍是亟待解决的关键问题。
为此，本研究旨在提出一种新颖的多模态混合卷积神经网络模型，名为MHCNN-STF（Multimodal Hybrid CNNs integrating Spatial, Temporal, and Frequency features）。该模型的核心目标是：通过设计模态特异性编码器，联合捕捉EEG和EOG信号的时空频特征，以克服传统方法在跨维度依赖关系建模上的局限；进而利用基于Transformer的跨模态融合模块，有效整合两种模态的互补优势；最终实现更全面、准确的驾驶员疲劳状态分类。
详细工作流程 本研究的工作流程是一个完整的深度学习模型构建、训练与验证过程，主要包括数据预处理、特征工程、模型架构设计、训练优化以及实验验证等多个环节。
1. 数据准备与预处理： 研究采用公开数据集SEED-Vig（SJTU Emotion EEG Dataset - Vigilance Estimation）进行验证。该数据集包含23名参与者在模拟单调驾驶环境下的EEG和EOG记录。EEG信号来自17个电极通道，EOG信号包含36维眼动特征。数据标注基于PERCLOS（Percentage of Eyelid Closure）指标，以0.35为阈值将样本划分为清醒（<0.35）和疲劳（≥0.35）两种状态。 预处理步骤包括：对原始EEG和EOG信号进行1-50 Hz带通滤波；使用非重叠的8秒时间窗对连续信号进行分段，每个段作为一个样本并赋予对应的疲劳/清醒标签。
2. 四维时空频特征结构构建（针对EEG信号）： 这是本研究为全面表征EEG信号而设计的核心特征工程步骤。具体流程如下： * 频带分解： 将每个8秒的EEG段进一步分解为五个标准频带：Delta（δ）、Theta（θ）、Alpha（α）、Beta（β）和Gamma（γ）。 * 特征提取： 采用0.5秒的滑动窗，在每个频带上计算差分熵（Differential Entropy， DE）特征。DE被证明是疲劳检测中最稳定的特征之一。 * 空间映射： 将17个EEG电极（参考电极CPz除外）根据其实际物理位置映射到一个6×9的二维网格图上，缺失电极位置用0填充。这样，每个电极的DE特征值被放置在其对应的二维坐标上。 * 四维张量构建： 对于一个EEG样本，最终形成一个四维特征张量 𝑋 ∈ ℝ^(ℎ×𝑤×𝑑×2𝑇)，其中ℎ=6（高度），𝑤=9（宽度）代表空间维度，𝑑=5代表频率维度（5个频带），𝑇=8代表时间维度（8秒/0.5秒 = 16个时间片，文中记为2𝑇）。这一结构同时保留了EEG信号的频率分布、空间拓扑结构和时间动态特性。
3. MHCNN-STF模型架构： 模型整体分为EEG和EOG两个并行处理分支，最后进行融合与分类。 * 注意力模块： 分别应用于EEG的4D特征和EOG的36维特征。该模块包含空间注意力和频率注意力两个分支，旨在通过动态权重分配，增强与疲劳状态高度相关的特征（如特定脑区或频带能量），抑制无关信息或噪声。 * EEG分支编码器： * 自适应图卷积网络（Adaptive Graph Convolutional Network）模块： 将经过注意力加权的EEG 4D特征输入GCN模块。与依赖固定邻接矩阵的传统GCN不同，本研究引入了自适应邻接矩阵，该矩阵的参数可以从输入数据中动态学习，从而能自动调整不同电极节点之间的连接权重，更精准地建模与疲劳相关的脑功能连接空间依赖关系。 * 长短时记忆网络（Long Short-Term Memory， LSTM）模块： 接收GCN提取的空间特征，进一步挖掘EEG信号在时间维度上的长短期动态依赖关系。本研究采用两层堆叠的LSTM结构，每层32个隐藏单元，以捕获更高阶的时序特征。 * EOG分支编码器： 将经过注意力模块加权的EOG特征，通过一个标准的卷积层来提取局部时空特征，最终编码为一个128维的特征向量。 * 跨模态特征融合与分类（ECST模块）： 这是另一个创新点。将EEG分支输出的512维特征向量与EOG分支输出的128维特征向量进行拼接。然后，设计了一个基于Transformer的编码器模块（ECST模块）对拼接后的融合特征进行深度建模。该模块首先通过一个融合注意力层为两种模态特征生成自适应融合权重，实现特征级的加权融合；随后利用Transformer架构捕捉融合特征中深层的跨模态时空依赖关系。最后，将Transformer输出的上下文增强表示输入全连接层和Sigmoid激活函数，完成疲劳状态的二分类（清醒/疲劳）。
4. 实验设置与验证： 实验在PyTorch框架下进行。采用五折交叉验证评估模型性能。优化器使用Adam，学习率设为0.0002，批量大小为128，训练100个周期。评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数（F1-score）和Kappa值。
主要结果 1. 与现有方法的对比实验： 在SEED-Vig数据集上，MHCNN-STF模型取得了最佳性能：准确率95.95%，精确率97.05%，召回率96.48%，F1分数96.77%。显著优于其他对比模型，如T-A-MFFNet（EEG， 85.65%）、CSF-GTNet（EEG， 81.48%）、GA-LSSVM（EEG， 88.15%）、MLCDT-VGG-16（EEG+EOG， 92.00%）、EEOFN（EEG+EOG， 91.00%）和CM-FusionNet（EEG+EOG， 84.62%）。结果表明，同时利用时空频多维特征并进行深度跨模态融合的策略，能更全面地表征疲劳状态，从而获得更高的分类性能。
2. 多模态有效性分析： 为了验证多模态融合的优势，研究者进行了单模态对比实验。仅使用EEG时，模型准确率为85.41%；仅使用EOG时，准确率为81.75%。而融合EEG+EOG的MHCNN-STF模型将准确率提升至95.95%。这证明EEG和EOG信号在疲劳检测中具有互补性，融合二者能有效利用互补信息，显著提升模型的判别能力。混淆矩阵的可视化也显示，多模态模型的分类边界更清晰，错误更少。
3. 消融实验： 通过逐步移除模型中的关键组件来评估其贡献。移除注意力模块后，准确率下降1.21%；移除GCN模块后，准确率下降1.13%；移除LSTM模块后，准确率下降3.02%；移除EOG分支的标准卷积层后，准确率下降1.58%。实验结果证实了注意力机制、自适应图卷积、时序建模以及局部特征提取各个模块对于提升模型性能都是必要且有效的。
4. 特征可视化与可解释性分析： 使用UMAP降维技术对学习到的特征嵌入进行可视化。结果显示，单模态（仅EEG或仅EOG）模型的特征在疲劳和清醒状态间存在大量重叠，而多模态MHCNN-STF模型的特征形成了两个明显分离的簇，表明其学习到了更具判别性和结构化的表征空间。 此外，研究还对GCN模块中学习到的自适应邻接矩阵进行了可视化分析，生成了不同EEG频带间连接重要性的弦图。结果显示，Alpha（α）、Theta（θ）和Gamma（γ）频带之间的相互作用最强，这与许多研究中α和θ频带在疲劳检测中起关键作用的结论一致，为模型的决策提供了一定的生理学解释。
5. 跨被试实验： 采用留一被试交叉验证策略来评估模型的泛化能力。将23名被试的数据依次作为测试集，其余22名作为训练集。实验结果表明，MHCNN-STF在跨被试场景下仍能保持平均92.62%的准确率和84.15%的平均皮尔逊相关系数，所有被试的准确率均超过90%。这证明了该模型具有良好的鲁棒性和对不同个体的泛化能力，对于实际应用至关重要。
结论 本研究成功提出了一种名为MHCNN-STF的新型多模态混合卷积神经网络模型，用于驾驶员疲劳检测。该模型通过构建四维时空频特征结构全面表征EEG信号，并结合注意力机制、自适应图卷积、LSTM以及基于Transformer的跨模态融合，有效地从EEG和EOG信号中提取并融合了与疲劳相关的互补信息。在公开数据集SEED-Vig上的大量实验表明，该模型在准确率、鲁棒性和泛化能力方面均优于现有的先进方法。研究不仅为疲劳检测提供了一个高效的解决方案，其提出的多维特征建模和自适应跨模态融合框架，也为其他基于多模态生理信号的人体状态识别任务提供了有价值的参考。
研究亮点 1. 创新的多维特征表征： 提出了针对EEG信号的4D（高度×宽度×频率×时间）特征结构，首次在单一框架内系统地整合了空间拓扑、频率分布和时间动态信息，克服了传统方法特征表征不全面的局限。 2. 先进的自适应图卷积： 在GCN模块中引入了可学习的自适应邻接矩阵，能够根据输入数据动态调整脑电电极间的功能连接权重，更好地捕捉个体差异和疲劳状态下的脑功能重组，增强了模型的表达能力与可解释性。 3. 高效的跨模态融合机制： 设计了基于Transformer的ECST融合模块，不仅实现了模态间的自适应加权融合，还能通过自注意力机制建模深层次的跨模态时空依赖关系，超越了简单的特征拼接或浅层交互策略。 4. 卓越的综合性能： 在同一个模型中协同优化了特征提取、注意力增强、空间-时序建模和多模态融合等多个环节，在公开数据集上取得了当前领先的检测性能，并通过严格的消融实验和跨被试验证证明了其各模块的有效性与模型的强泛化能力。 5. 兼顾性能与可解释性： 研究不仅追求高精度，还通过特征可视化和对学习到的频带连接进行分析，尝试为模型的预测结果提供生理学依据，增加了模型的可信度。
其他有价值内容 论文在讨论部分展望了未来的研究方向，包括：通过模型轻量化技术（如剪枝、知识蒸馏、量化）优化模型结构，以提升训练和推理速度，使其更适合车载嵌入式系统等资源受限的实际应用场景；在更大规模、更多中心的数据集上验证模型，以进一步提升其泛化能力和鲁棒性。这些方向对于推动该研究从实验室走向实际应用具有重要意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问