学术研究报告:TAMF-Net——一种用于可解释性驾驶员认知负荷识别的时间感知多模态融合框架
一、 研究团队与发表信息
本研究由来自北京科技大学自动化与电气工程学院的曹明、迟建楠*、曹博翔、刘佳慧、张聪和汪瑜共同完成。其中,迟建楠为通讯作者。该研究成果以论文形式发表于Elsevier旗下的学术期刊《Biomedical Signal Processing and Control》第121卷(2026年),文章标题为“TAMF-Net: Temporal-aware multimodal fusion for interpretable driver cognitive load recognition”,论文在线发表日期为2026年4月23日。
二、 学术背景与研究目标
本研究属于生物医学信号处理、人因工程与人工智能交叉领域,具体聚焦于驾驶员认知状态(Cognitive Load, CL)的实时监测与识别。在智能交通和高级驾驶辅助系统(Advanced Driver Assistance Systems, ADAS)日益普及的背景下,驾驶员的认知负荷水平对行车安全至关重要。负荷过高或过低均可能导致感知能力下降、反应时间延长,从而增加事故风险。特别是随着自动驾驶技术的发展,驾驶员角色从直接操控者转变为监督者,其认知状态(如警觉度下降或接管时注意力过载)的连续、可靠评估,对于开发自适应人机界面(Human-Machine Interfaces, HMIs)至关重要。
传统的主观评估方法(如NASA-TLX量表)无法满足实时应用需求,因此研究转向生理信号,如脑电图(Electroencephalogram, EEG)和眼动追踪(Eye-tracking)。尽管基于EEG和眼动的多模态方法展现出潜力,但现有方法大多存在三个关键瓶颈:1. 时间信息丢失:通常依赖于静态统计特征聚合或固定窗口特征提取,这种“快照式”方法抹去了认知负荷水平之间的微观过渡,无法捕捉驾驶任务中认知负荷的渐进式演变。2. 不兼容特征的动态融合:不同生理模态(如高频的神经振荡EEG和低频的行为反应眼动)具有不同的时间尺度,而标准融合机制缺乏对齐这些异步特征所需的时序弹性。3. 序数信息丢失:将认知负荷分类视为名义分类问题(如使用Softmax交叉熵损失),忽略了负荷水平(低<中<高)固有的有序性,导致在类别边界处出现不合逻辑的预测跳跃。
为解决上述系统性缺陷,本研究旨在提出一种新的序列级认知负荷评估框架TAMF-Net。其核心目标是:通过直接处理时间序列,保留认知动态的演变过程;设计一种能够有效融合跨时间尺度多模态信息的机制;并在训练中显式地建模认知负荷水平的序数性质,以实现更准确、更符合生理逻辑的状态识别。
三、 详细研究流程与方法
本研究是一项基于公开数据集的算法开发与验证工作,主要流程包括问题定义、模型框架设计、实验验证与分析。
1. 问题定义与数据集 研究将驾驶员认知负荷识别定义为一个序列级有序分类任务。使用公开的CL-Drive多模态数据集进行模型开发与验证。该数据集包含23名健康参与者(17名女性,6名男性),每人完成9项认知需求递增的驾驶任务,共产生180个任务级样本(每个样本3分钟)。数据同步采集了62通道EEG(1000 Hz)和双目眼动信号(120 Hz)。认知负荷根据实验任务设计和主观评估分数相结合的双重验证方法,离散化为三个平衡的级别(低、中、高)。
2. TAMF-Net框架设计(核心创新) 研究提出了名为TAMF-Net(Temporal-aware Multimodal Fusion Network)的端到端深度学习框架。该框架包含四个核心阶段,其详细架构如图1和图2所示。
第一阶段:输入构建与预处理。将每个驾驶片段(Episode)的原始EEG和眼动信号进行预处理(如带通滤波、降噪),并分割成10秒非重叠窗口,形成同步的特征序列 X_eeg 和 X_eye。每个序列对应一个序列级的序数标签(低/中/高)。特征工程方面,从EEG信号中提取了与认知负荷相关的频域特征(如δ, θ, α, β, γ波段相对功率、θ/β比率)、时域统计特征和小波系数。从眼动信号中提取了眨眼、注视、扫视和瞳孔直径等相关特征。所有特征经过标准化处理,最终EEG特征维度为64,眼动特征维度为48。
第二阶段:时序编码。为捕捉长程时间依赖关系,摒弃了传统的循环神经网络(RNN),为EEG和眼动模态分别设计了模态特定的可分离时序卷积网络(Separable Temporal Convolutional Network, Separable-TCN)编码器。TCN采用因果膨胀卷积,能够建立宽广的感受野以捕获长程依赖,同时支持大规模并行计算,避免了RNN的梯度消失问题,并减少了参数量以缓解过拟合。编码器将输入序列映射到共享的潜在空间,得到时序表征 H_eeg 和 H_eye。
第三阶段:分层多尺度双向融合(Hierarchical Cross-attention Fusion, HCA)。这是本研究的核心创新模块,旨在解决EEG(毫秒级波动)和眼动(秒级响应)之间的时间尺度不匹配问题。该框架由堆叠的多尺度双向融合块(Multi-scale Bidirectional Fusion block, MSBF-block) 构成。每个MSBF-block内部执行以下操作:
H_eeg 和 H_eye 分别应用自注意力,建模各自内部的时序依赖。第四阶段:时序上下文聚合与序数回归。
C,该层能够强调与认知波动(如状态转换)相对应的时段。3. 实验设计与分析流程 研究采用严格的被试独立五折交叉验证方案来评估模型的泛化能力。将23名参与者划分为5个互斥的子集,确保同一参与者的数据不会同时出现在训练集和测试集中。 * 基线模型:为了全面评估TAMF-Net,研究构建并比较了五类代表性基线模型:1) 静态基线(XGBoost,使用任务级平均特征);2) 短期时序基线(Slice-LSTM,将10秒段视为独立样本);3) 通用序列基线(Seq-Transformer,标准Transformer编码器);4) 浅层融合基线(TCN-FusionLite,TCN编码后简单拼接);5) TAMF-Net的单模态变体(仅EEG或仅眼动)。 * 评估指标:主要使用准确率和加权F1分数,其中加权F1分数因其对测试集中潜在类别不平衡的鲁棒性而被选为主要指标。 * 消融实验:通过系统性地移除或替换TAMF-Net的关键组件(如交叉注意力机制、多尺度设计、门控融合、注意力池化、序数损失等),定量分析每个组件的功能贡献。 * 参数敏感性分析:评估了TCN核大小、融合层数、注意力头数、正则化强度等关键超参数对模型性能的影响。 * 跨数据集评估:为了测试模型的跨领域泛化能力,在未进行任何微调的情况下,将训练好的TAMF-Net直接应用于另一个公开的SEED-Vig数据集(专注于警觉度检测),评估其性能。 * 可解释性分析:通过可视化时序注意力权重分布、双向交叉注意力矩阵、空间贡献图、特征重要性排名以及预测轨迹,深入分析模型的决策过程和学到的生理生物标志物。
四、 主要研究结果
在CL-Drive数据集上的性能:TAMF-Net在被试独立五折交叉验证下取得了94.3%的平均准确率和94.4%的加权F1分数,显著优于所有基线模型。与静态XGBoost基线(F1: 81.2%)和短期Slice-LSTM基线(F1: 84.9%)相比,性能分别提升了13.2和9.5个百分点,这证明了建模整个驾驶过程时序演变的重要性。与强大的通用序列基线Seq-Transformer(F1: 91.5%)相比,TAMF-Net仍有2.9个百分点的显著提升(p < 0.05),验证了其双编码器架构和显式融合机制的有效性。
消融实验结果:关键组件的移除导致性能显著下降,证实了其必要性。
跨数据集泛化能力:在SEED-Vig数据集(涉及从主动认知负荷到被动警觉度的任务转变,以及从相机眼动到眼电图的模态转变)上,TAMF-Net在未进行任何微调的情况下,取得了87.7%的平均F1分数。这显著优于单模态变体和浅层融合基线(TCN-FusionLite: 84.8%),并与为该任务专门设计的领域特定模型SFT-Net(90.1%)性能接近。这强有力地证明了TAMF-Net学习到的跨模态时序表征能够捕捉超越特定任务和硬件的、具有泛化性的神经认知生物标志物。
可解释性分析结果:
参数敏感性:模型对TCN核大小等参数表现出良好的鲁棒性。性能在融合层数L=4、正则化强度λ_reg=0.05、模型维度d_model=384时达到峰值。
五、 研究结论与价值
本研究成功提出了TAMF-Net,一个用于驾驶员认知负荷连续估计的、时间感知的、多模态的、序数敏感的融合框架。该框架通过序列级建模、分层多尺度融合和序数感知优化,系统地解决了现有方法在时序信息丢失、跨模态融合困难和不考虑类别有序性方面的局限。
科学价值:1) 方法论贡献:提出了一种新颖的、可解释的深度学习架构,将时序卷积网络、分层交叉注意力和序数回归有机结合,为处理异步多模态生理时间序列提供了新的范式。2) 理论验证:模型的可解释性分析结果(如关注前顶叶网络、依赖瞳孔直径和EEG能量)与认知神经科学和心理学理论相吻合,不仅是一个黑箱预测工具,更提供了对认知负荷生理基础的洞察。3) 泛化证明:在跨数据集(CL-Drive到SEED-Vig)评估中展现的强大零样本泛化能力,表明模型学习到的是稳健的、任务不变的生物标志物,而非数据集特定的伪影。
应用价值:该框架为实现实时、可靠、可解释的驾驶员状态监控系统提供了核心技术。其低推理延迟(0.55 ms/段)和强大的性能使其有望集成到未来的高级驾驶辅助系统(ADAS)和自适应人机界面(HMI)中,用于根据驾驶员的实时认知负荷调整系统行为(如调整警报时机、简化界面信息或触发接管请求),从而提升道路安全。
六、 研究亮点
七、 其他有价值的内容
研究还详细讨论了模型的局限性及未来方向:1) 当前依赖于手工特征,未来可探索可学习的前端(如1D-CNN)进行端到端的原始信号处理。2) 尽管进行了被试独立验证,个体生理差异仍是挑战,未来可研究基于少样本迁移学习的主题自适应校准技术。3) 案例分析指出,模型可能对瞬时的生理反射(如突然的扫视)过度敏感,未来的注意力池化层可考虑加入“不应期”或时序平滑机制。4) 需要在更复杂的自然驾驶数据上进一步验证,以增强对真实世界干扰的鲁棒性。这些讨论为后续研究指明了清晰路径。