MASA-TCN:多锚点空间感知时序卷积神经网络用于连续与离散脑电情感识别

EEG 情感识别领域的新突破:MASA-TCN统一模型的提出与实验分析

学术背景与研究动机

人类情感识别(Emotion Recognition)一直是神经科学、人工智能以及人机交互领域的热点研究方向。通过对个体情绪状态的自动识别,可以服务于心理健康管理、智能辅助系统、以及更自然的人机互动,为抑郁、焦虑、孤独症谱系障碍等精神疾病患者提供有效干预与监测。然而,情感识别技术的发展主要集中在基于语音、面部表情等外部表现的信号,尽管这些信号易于采集,但极易受到被试主观控制或掩盖,缺乏对大脑真实情感状态的精准捕捉。

相比之下,脑电图(Electroencephalogram, EEG)作为一种非侵入、低成本、高时序分辨率的脑成像工具,能够直接反映大脑内在的情感神经活动,因此在情感识别领域具有独特优势。基于EEG的情感识别任务主要包含两类:离散情绪状态分类(Discrete Emotion Classification, DEC)和连续情绪状态回归(Continuous Emotion Regression, CER)。前者给定每个样本一个分类标签,后者对情绪进行时间连续的回归预测,更贴近情感动态变化的真实过程。然而,尽管DEC相关方法研究广泛,CER方向的研究与数据依然十分稀缺,针对EEG信号的情感连续回归方法更是匮乏。

因此,本文作者试图解决两大核心问题:(1)如何提升基于EEG的情绪连续回归任务的效果,尤其在现有方法难以有效学习脑电信号空间特征的情况下;(2)是否能够提出一个统一的模型,在兼顾空间、频谱和时序特征的同时,同时适用于CER和DEC两类任务,实现“一体化”情感识别。

论文来源及作者信息

本文题为《MASA-TCN: Multi-Anchor Space-Aware Temporal Convolutional Neural Networks for Continuous and Discrete EEG Emotion Recognition》,发表于IEEE Journal of Biomedical and Health Informatics(2024年7月第28卷第7期)。文章作者包括Yi Ding、Su Zhang、Chuangao Tang和Cuntai Guan,均为EEG信号与脑机接口领域的知名学者。作者分别来自新加坡南洋理工大学(Nanyang Technological University)与中国南京工程学院(Nanjing Institute of Technology)。本研究获得了新加坡科技与研究署(A*STAR)及相关基金的支持。

研究设计与技术流程详解

本文是一项原创性算法研究,通过提出MASA-TCN(Multi-Anchor Space-Aware Temporal Convolutional Neural Networks,多锚点空间感知时序卷积神经网络),系统性地解决了EEG情感识别中的空间特征学习与任务融合问题。以下为详细的技术流程阐述:

1. 问题定义与数据注释方式

  • CER任务:每个EEG试验样本被分割为多个短时间窗口,标签为随时间变化的连续值(如情感的valence值),采用滑动窗口同步脑电与标签。
  • DEC任务:每个EEG试验样本被赋予一个离散的情感分类标签,同一试验内所有分段共享同一标签。

2. 网络整体结构设计

MASA-TCN由四大模块组成:

(1)特征提取模块(Feature Extraction Block) - EEG信号经预处理后,针对每个子段计算6/5个频率带的平均相对功率谱密度(Relative Power Spectral Density, rPSD),构建192维/160维输入特征向量(依赖于数据集channel数和频带数)。

(2)空间感知时序卷积层(Space-Aware Temporal Layer, SAT) - 创新点之一,包含两类卷积核:a)上下文卷积核(Context Kernel)按频道逐一提取频谱特征,b)空间融合卷积核(Spatial Fusion Kernel)在所有频道间学习空间模式。设计中通过设置不同步长与扩张率,实现时序因果卷积,有效增加感受野,提升特征区分能力,避免滑窗重叠带来的冗余。

(3)多锚点注意力融合模块(Multi-Anchor Attentive Fusion Block, MAAF) - 创新点之二,采用三组不同时间长度的SAT并行处理(卷积核长度分别为3、5、15),以适应情感变化的多时间尺度。三路输出经拼接后,通过1×1卷积实现“注意力融合”,动态权衡多尺度特征贡献,增强模型鲁棒性。

(4)时序卷积神经网络层(Temporal Convolutional Network Block, TCN) - 堆叠多层因果卷积,结合残差连接和归一化,递进学习更高层次的时序特征。通过调整深度和宽度(卷积核数量),灵活控制模型的时序感受野。

(5)输出回归/分类模块 - CER任务下采用线性回归器逐时预测情感值;DEC任务下,对所有子段输出求均值赋予整体标签,实现回归到分类的任务转化。

3. 数据集与预处理流程

  • MAHNOB-HCI:用于CER,30名受试者,24人239个试验片段,EEG数据32通道,采样率256Hz,标签4Hz,由专家平均标注valence值。
  • DEAP:用于DEC,32名受试者,40条1分钟音乐视频,每条配有主观评价分数,EEG数据32通道,采样率512Hz,下采样至128Hz。标签九级连续分数折算为高低两级。

预处理流程包括去除非刺激段、带通滤波、参考值校准、滑动窗口分段、计算rPSD等。各平台处理流程严格对齐以保证可比性。

4. 实验与评估流程

  • CER评估指标:采用均方根误差(Root Mean Square Error, RMSE)、皮尔森相关系数(PCC)、一致性相关系数(Concordance Correlation Coefficient, CCC),同时以CCC优化损失函数。
  • DEC评估指标:准确率(Accuracy, ACC)与F1分数,采用10折交叉验证及独立主体测试策略。
  • 超参数设置、训练策略和基线方法完全对齐保证公平对比。

主要研究结果与数据详解

1. CER任务结果分析

MASA-TCN在MAHNOB-HCI数据集上的表现远超所有对比方法,包括传统RNN、LSTM、GRU、TCN、以及最新文献方法。其主要数据如下: - 测试集RMSE 下降14.29%,PCC提升0.043,CCC提升0.046(较TCN)。 - 较已报道最佳方法[8],RMSE低9.09%,PCC高0.033,CCC高0.04。

2. 组件消融与模型分析

逐步添加SAT与MAAF,CER性能指标持续提升,明确二者的有效性。 - 仅添加SAT:RMSE下降、PCC提升0.022、CCC提升0.023。 - 再加入MAAF:RMSE进一步降至0.060,PCC提升至0.507,CCC提升至0.417。

3. 起始扩张率与卷积核尺寸影响

  • 起始扩张率(dilation)设置为2性能最佳,可有效扩大时序感受野并减少模型冗余。
  • 卷积核长度从3增至15,对PCC与CCC持续提升,表明多尺度建模对准确反映情感动态至关重要。

4. 深度与宽度(卷积核数)影响

  • 深度大于4后性能不再显著提升甚至微降,宽度扩大至64性能最优,更宽的模型(宽度128)则训练困难、性能反而下降。
  • 体现出空间特征学习与充分时序感受野共同作用下的优化平衡。

5. 融合策略与空间特征学习顺序影响

  • 注意力融合优于简单拼接或均值融合,MASA-TCN在融合方法上优于所有同类模型。
  • 空间特征“早期”学习(即在SAT模块)明显优于“后期”学习,二者性能差距显著且后者无法获得可比表现。

6. DEC任务结果及分类器结构分析

MASA-TCN在DEAP数据集DEC任务(valence、arousal维度)上亦取得最高准确率与F1分数(分别领先1.63%、2.7%),超越SVM、DeepConvNet、EEGNet、TSception与最新Transformer类方法MEET。通过均值融合机制,进一步提高分类鲁棒性与泛化能力。

结论、科学价值与应用意义

MASA-TCN成功突破了EEG情感识别领域在空间特征学习和CER/DEC任务之间的模型融合瓶颈,实现了首次提出的统一建模方案。核心科学价值包括:

  • 方法创新:空间感知时序卷积、注意力多锚点融合、多尺度特征建模有效解决了EEG信号复杂空间-时序-频谱特性下的特征学习难题;
  • 新一代统一模型:MASA-TCN能够同时支持连续回归与离散分类,解决了数据稀缺、标签不同步等长期难题,为泛化性能与实际应用开辟新路;
  • 实验可推广性强:在两个公开数据集上大幅刷新SOTA,为后续研究提供了可复现的代码和评测标准;
  • 科学及应用意义显著:社会价值如心理健康监测、智能辅助系统、人机交互、情感计算具备广泛应用前景。

研究亮点与未来展望

本研究亮点总结如下:

  • 提出了创新性SAT空间特征模块及MAAF多锚点融合机制,填补了EEG情感识别空间学习的技术空白;
  • 实现了模型结构与任务类型的大胆融合,解决了领域内模型碎片化难以跨任务复用的挑战;
  • 支持高性能连续情感回归,助力情绪认知领域“动态特征”与“连续过程”理论的实验验证;
  • 对融合策略、扩张率与模型宽度深入分析,为后续算法开发与参数调优提供科学依据;
  • 公开了全部源码与实验设置,推动领域数据与方法的标准化。

然而,当前CER任务数据仍然稀缺,标签连续精确注释需求较高,未来还需扩充开放数据集。此外,对于“早期空间学习优于后期学习”的机制问题,作者呼吁更多理论分析与可解释AI方法的引入。同时,损失函数层面未来可探索多指标联合优化,以进一步提升模型对极值及细微动态的回归能力。

总结

总体而言,本研究在EEG情感识别领域推动了跨越式的发展。MASA-TCN模型的提出与详尽实验验证,为后续情感计算、认知神经科学及临床心理健康领域相关研究奠定了坚实的方法基础。论文不仅展示了EEG信号的空间-时序联合建模的新思路,也为行业应用提供了实践指南与算法基石。