分享自:

TAMF-Net:用于可解释驾驶员认知负荷识别的时间感知多模态融合方法

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2026.110388

学术研究报告:TAMF-Net——一种用于可解释性驾驶员认知负荷识别的时间感知多模态融合框架

一、 研究团队与发表信息

本研究由来自北京科技大学自动化与电气工程学院的曹明、迟建楠*、曹博翔、刘佳慧、张聪和汪瑜共同完成。其中,迟建楠为通讯作者。该研究成果以论文形式发表于Elsevier旗下的学术期刊《Biomedical Signal Processing and Control》第121卷(2026年),文章标题为“TAMF-Net: Temporal-aware multimodal fusion for interpretable driver cognitive load recognition”,论文在线发表日期为2026年4月23日。

二、 学术背景与研究目标

本研究属于生物医学信号处理、人因工程与人工智能交叉领域,具体聚焦于驾驶员认知状态(Cognitive Load, CL)的实时监测与识别。在智能交通和高级驾驶辅助系统(Advanced Driver Assistance Systems, ADAS)日益普及的背景下,驾驶员的认知负荷水平对行车安全至关重要。负荷过高或过低均可能导致感知能力下降、反应时间延长,从而增加事故风险。特别是随着自动驾驶技术的发展,驾驶员角色从直接操控者转变为监督者,其认知状态(如警觉度下降或接管时注意力过载)的连续、可靠评估,对于开发自适应人机界面(Human-Machine Interfaces, HMIs)至关重要。

传统的主观评估方法(如NASA-TLX量表)无法满足实时应用需求,因此研究转向生理信号,如脑电图(Electroencephalogram, EEG)和眼动追踪(Eye-tracking)。尽管基于EEG和眼动的多模态方法展现出潜力,但现有方法大多存在三个关键瓶颈:1. 时间信息丢失:通常依赖于静态统计特征聚合或固定窗口特征提取,这种“快照式”方法抹去了认知负荷水平之间的微观过渡,无法捕捉驾驶任务中认知负荷的渐进式演变。2. 不兼容特征的动态融合:不同生理模态(如高频的神经振荡EEG和低频的行为反应眼动)具有不同的时间尺度,而标准融合机制缺乏对齐这些异步特征所需的时序弹性。3. 序数信息丢失:将认知负荷分类视为名义分类问题(如使用Softmax交叉熵损失),忽略了负荷水平(低<中<高)固有的有序性,导致在类别边界处出现不合逻辑的预测跳跃。

为解决上述系统性缺陷,本研究旨在提出一种新的序列级认知负荷评估框架TAMF-Net。其核心目标是:通过直接处理时间序列,保留认知动态的演变过程;设计一种能够有效融合跨时间尺度多模态信息的机制;并在训练中显式地建模认知负荷水平的序数性质,以实现更准确、更符合生理逻辑的状态识别。

三、 详细研究流程与方法

本研究是一项基于公开数据集的算法开发与验证工作,主要流程包括问题定义、模型框架设计、实验验证与分析。

1. 问题定义与数据集 研究将驾驶员认知负荷识别定义为一个序列级有序分类任务。使用公开的CL-Drive多模态数据集进行模型开发与验证。该数据集包含23名健康参与者(17名女性,6名男性),每人完成9项认知需求递增的驾驶任务,共产生180个任务级样本(每个样本3分钟)。数据同步采集了62通道EEG(1000 Hz)和双目眼动信号(120 Hz)。认知负荷根据实验任务设计和主观评估分数相结合的双重验证方法,离散化为三个平衡的级别(低、中、高)。

2. TAMF-Net框架设计(核心创新) 研究提出了名为TAMF-Net(Temporal-aware Multimodal Fusion Network)的端到端深度学习框架。该框架包含四个核心阶段,其详细架构如图1和图2所示。

  • 第一阶段:输入构建与预处理。将每个驾驶片段(Episode)的原始EEG和眼动信号进行预处理(如带通滤波、降噪),并分割成10秒非重叠窗口,形成同步的特征序列 X_eegX_eye。每个序列对应一个序列级的序数标签(低/中/高)。特征工程方面,从EEG信号中提取了与认知负荷相关的频域特征(如δ, θ, α, β, γ波段相对功率、θ/β比率)、时域统计特征和小波系数。从眼动信号中提取了眨眼、注视、扫视和瞳孔直径等相关特征。所有特征经过标准化处理,最终EEG特征维度为64,眼动特征维度为48。

  • 第二阶段:时序编码。为捕捉长程时间依赖关系,摒弃了传统的循环神经网络(RNN),为EEG和眼动模态分别设计了模态特定的可分离时序卷积网络(Separable Temporal Convolutional Network, Separable-TCN)编码器。TCN采用因果膨胀卷积,能够建立宽广的感受野以捕获长程依赖,同时支持大规模并行计算,避免了RNN的梯度消失问题,并减少了参数量以缓解过拟合。编码器将输入序列映射到共享的潜在空间,得到时序表征 H_eegH_eye

  • 第三阶段:分层多尺度双向融合(Hierarchical Cross-attention Fusion, HCA)。这是本研究的核心创新模块,旨在解决EEG(毫秒级波动)和眼动(秒级响应)之间的时间尺度不匹配问题。该框架由堆叠的多尺度双向融合块(Multi-scale Bidirectional Fusion block, MSBF-block) 构成。每个MSBF-block内部执行以下操作:

    • 模态内自注意力:首先对 H_eegH_eye 分别应用自注意力,建模各自内部的时序依赖。
    • 多尺度上下文生成:通过步长为2的时间池化生成粗尺度上下文特征,再上采样回原始长度以保持对齐。
    • 双尺度双向交叉注意力:这是一个关键设计。允许一个模态的细尺度特征同时关注另一个模态的细尺度和粗尺度上下文。更新规则通过带有可学习缩放因子的残差连接实现,初始化为0以确保训练初期以恒等映射开始,逐步学习跨模态交互,提升训练稳定性。
    • 最后通过前馈网络(Feedforward Network, FFN)和层归一化进行处理。 通过堆叠多个MSBF-block,实现了层次化、深度的跨模态特征融合。
  • 第四阶段:时序上下文聚合与序数回归

    • 时序上下文聚合:将融合后的表征通过一个门控时序融合单元进行动态加权融合,该单元学习一个门控系数,根据当前上下文动态调节EEG和眼动流的贡献。随后,使用注意力时序池化层将加权后的序列压缩为一个全局上下文向量 C,该层能够强调与认知波动(如状态转换)相对应的时段。
    • 序数回归与优化:为避免将有序分类当作名义分类,模型采用序数感知的焦点损失函数(Ordinal-aware Focal Loss)。它将K类有序回归任务分解为K-1个二元分类子任务,每个子任务预测真实等级是否超过阈值k。焦点调制项使模型能够专注于决策边界附近的困难样本。此外,为避免注意力机制中的模式崩溃,对交叉注意力矩阵施加了正交性约束,迫使不同注意力头关注多模态数据的不同子空间,最大化融合表征的多样性和互补性。总损失函数是序数损失和正则化项的加权和。

3. 实验设计与分析流程 研究采用严格的被试独立五折交叉验证方案来评估模型的泛化能力。将23名参与者划分为5个互斥的子集,确保同一参与者的数据不会同时出现在训练集和测试集中。 * 基线模型:为了全面评估TAMF-Net,研究构建并比较了五类代表性基线模型:1) 静态基线(XGBoost,使用任务级平均特征);2) 短期时序基线(Slice-LSTM,将10秒段视为独立样本);3) 通用序列基线(Seq-Transformer,标准Transformer编码器);4) 浅层融合基线(TCN-FusionLite,TCN编码后简单拼接);5) TAMF-Net的单模态变体(仅EEG或仅眼动)。 * 评估指标:主要使用准确率和加权F1分数,其中加权F1分数因其对测试集中潜在类别不平衡的鲁棒性而被选为主要指标。 * 消融实验:通过系统性地移除或替换TAMF-Net的关键组件(如交叉注意力机制、多尺度设计、门控融合、注意力池化、序数损失等),定量分析每个组件的功能贡献。 * 参数敏感性分析:评估了TCN核大小、融合层数、注意力头数、正则化强度等关键超参数对模型性能的影响。 * 跨数据集评估:为了测试模型的跨领域泛化能力,在未进行任何微调的情况下,将训练好的TAMF-Net直接应用于另一个公开的SEED-Vig数据集(专注于警觉度检测),评估其性能。 * 可解释性分析:通过可视化时序注意力权重分布、双向交叉注意力矩阵、空间贡献图、特征重要性排名以及预测轨迹,深入分析模型的决策过程和学到的生理生物标志物。

四、 主要研究结果

  1. 在CL-Drive数据集上的性能:TAMF-Net在被试独立五折交叉验证下取得了94.3%的平均准确率和94.4%的加权F1分数,显著优于所有基线模型。与静态XGBoost基线(F1: 81.2%)和短期Slice-LSTM基线(F1: 84.9%)相比,性能分别提升了13.2和9.5个百分点,这证明了建模整个驾驶过程时序演变的重要性。与强大的通用序列基线Seq-Transformer(F1: 91.5%)相比,TAMF-Net仍有2.9个百分点的显著提升(p < 0.05),验证了其双编码器架构和显式融合机制的有效性。

  2. 消融实验结果:关键组件的移除导致性能显著下降,证实了其必要性。

    • 移除交叉注意力机制导致F1分数下降5.7%,表明显式的跨模态交互至关重要。
    • 移除多尺度多样性(仅使用单一尺度)导致F1下降1.8%,证实整合粗细粒度时序特征有助于有效信号对齐。
    • TCN编码器替换为LSTM导致F1下降1.8%,验证了TCN在建模生理序列方面的优越性。
    • 使用统一编码(在TCN前拼接原始信号)比所提双流框架低2.3%,说明EEG和眼动信号需要不同的卷积滤波器进行最优特征提取。
    • 序数损失替换为交叉熵损失虽然最终准确率相近,但验证损失更高且优化轨迹振荡更剧烈,表明序数约束起到了有效的正则化作用,使训练更稳定。
  3. 跨数据集泛化能力:在SEED-Vig数据集(涉及从主动认知负荷到被动警觉度的任务转变,以及从相机眼动到眼电图的模态转变)上,TAMF-Net在未进行任何微调的情况下,取得了87.7%的平均F1分数。这显著优于单模态变体和浅层融合基线(TCN-FusionLite: 84.8%),并与为该任务专门设计的领域特定模型SFT-Net(90.1%)性能接近。这强有力地证明了TAMF-Net学习到的跨模态时序表征能够捕捉超越特定任务和硬件的、具有泛化性的神经认知生物标志物。

  4. 可解释性分析结果

    • 时序注意力:模型表现出与负荷相关的资源分配机制。中、高负荷条件下,注意力权重在任务初期较高,随后衰减,表明模型优先处理认知需求初始阶段的适应或应激反应。
    • 跨模态注意力:低负荷时注意力模式分散;高负荷时,注意力高度集中于特定的特征子空间(如特定扫视向量与EEG频谱特征的耦合),这类似于认知心理学中的“注意力隧道效应”,模型在高压下抑制外围特征整合以最大化分类效率。
    • 空间与特征贡献:模型主要关注前额(AF7, AF8)和颞顶(TP9, TP10)脑区,这与负责工作记忆和执行功能的前顶叶注意网络相符。特征重要性排名显示,瞳孔直径EEG小波能量是顶级预测因子,符合Kahneman的容量模型(瞳孔扩张反映心理努力)和神经振荡理论。
    • 预测轨迹:模型预测的认知负荷强度在任务转换时呈现平滑的过渡曲线(约1.5秒的生理延迟),而非阶跃式跳跃,这表明模型捕捉的是认知状态连续的动态演化过程,而非简单的静态标签映射。
  5. 参数敏感性:模型对TCN核大小等参数表现出良好的鲁棒性。性能在融合层数L=4、正则化强度λ_reg=0.05、模型维度d_model=384时达到峰值。

五、 研究结论与价值

本研究成功提出了TAMF-Net,一个用于驾驶员认知负荷连续估计的、时间感知的、多模态的、序数敏感的融合框架。该框架通过序列级建模、分层多尺度融合和序数感知优化,系统地解决了现有方法在时序信息丢失、跨模态融合困难和不考虑类别有序性方面的局限。

科学价值:1) 方法论贡献:提出了一种新颖的、可解释的深度学习架构,将时序卷积网络、分层交叉注意力和序数回归有机结合,为处理异步多模态生理时间序列提供了新的范式。2) 理论验证:模型的可解释性分析结果(如关注前顶叶网络、依赖瞳孔直径和EEG能量)与认知神经科学和心理学理论相吻合,不仅是一个黑箱预测工具,更提供了对认知负荷生理基础的洞察。3) 泛化证明:在跨数据集(CL-Drive到SEED-Vig)评估中展现的强大零样本泛化能力,表明模型学习到的是稳健的、任务不变的生物标志物,而非数据集特定的伪影。

应用价值:该框架为实现实时、可靠、可解释的驾驶员状态监控系统提供了核心技术。其低推理延迟(0.55 ms/段)和强大的性能使其有望集成到未来的高级驾驶辅助系统(ADAS)和自适应人机界面(HMI)中,用于根据驾驶员的实时认知负荷调整系统行为(如调整警报时机、简化界面信息或触发接管请求),从而提升道路安全。

六、 研究亮点

  1. 统一的序列级建模:摒弃了传统的窗口化独立处理方式,将整个驾驶片段作为序列进行处理,完整保留了认知负荷演变的长期时序上下文。
  2. 创新的分层多尺度双向融合(MSBF)机制:通过双尺度(细粒度和粗粒度)双向交叉注意力,有效对齐和融合了具有不同时间动态的EEG和眼动信号,解决了多模态异步性问题。
  3. 序数感知的优化策略:引入序数感知的焦点损失函数,显式建模认知负荷水平的有序性,减少了类别边界处的错误,使预测更符合生理逻辑。
  4. 强大的可解释性与泛化能力:通过全面的可视化分析揭示了模型的决策依据,并与生理学理论一致。在未见过的数据集和任务上表现出的优秀性能,证明了其实际部署潜力。
  5. 系统性的实验验证:通过与被试独立的严格基线比较、详尽的消融研究、参数敏感性分析、跨数据集评估和深入的错误案例分析,为模型的每个设计选择提供了坚实的实证支持。

七、 其他有价值的内容

研究还详细讨论了模型的局限性及未来方向:1) 当前依赖于手工特征,未来可探索可学习的前端(如1D-CNN)进行端到端的原始信号处理。2) 尽管进行了被试独立验证,个体生理差异仍是挑战,未来可研究基于少样本迁移学习的主题自适应校准技术。3) 案例分析指出,模型可能对瞬时的生理反射(如突然的扫视)过度敏感,未来的注意力池化层可考虑加入“不应期”或时序平滑机制。4) 需要在更复杂的自然驾驶数据上进一步验证,以增强对真实世界干扰的鲁棒性。这些讨论为后续研究指明了清晰路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com