分享自:

基于卷积Transformer网络的脑电运动想象分类

期刊:scientific reportsDOI:10.1038/s41598-024-71118-7

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于卷积Transformer网络的脑电运动想象分类研究

1. 作者与发表信息

本研究由Wei Zhao(第一作者,集美大学诚毅学院)、Xiaolu JiangBaocan ZhangShixiao XiaoSujun Weng共同完成,发表于Scientific Reports期刊(2024年,第14卷,文章编号20237)。

2. 学术背景

研究领域:脑机接口(Brain-Computer Interface, BCI)与运动想象(Motor Imagery, MI)的脑电(Electroencephalography, EEG)信号解码。
研究动机:尽管EEG-based MI在康复医疗和人机交互中潜力巨大,但EEG信号的低信噪比和非平稳性限制了其解码性能。现有方法(如传统机器学习或纯卷积神经网络CNN)难以同时捕捉局部时空特征和全局依赖关系。
研究目标:提出一种新型混合模型CTNet(Convolutional Transformer Network),结合CNN的局部特征提取能力和Transformer的全局注意力机制,提升MI-EEG分类精度。

3. 研究流程与方法

(1)数据准备
  • 数据集:使用公开基准数据集BCI IV-2a(4类MI任务:左手、右手、双脚、舌头)和BCI IV-2b(2类MI任务:左/右手),分别包含9名受试者的EEG数据。
  • 预处理:仅对原始EEG进行标准化(Z-score归一化),未使用复杂的滤波或伪迹去除方法。
  • 数据增强:采用分段重组(Segmentation and Recombination, S&R)策略,将训练数据分段后随机重组生成新样本,缓解小样本过拟合问题。
(2)模型架构(CTNet)

CTNet由三部分组成:
1. 卷积模块(受EEGNet启发):
- 时序卷积:8个滤波器(核大小1×64)提取频域特征。
- 深度卷积:空间滤波(核大小22×1或3×1,对应不同数据集),深度倍数d=2。
- 空间卷积:16个滤波器(核大小1×16)进一步提取时空特征,后接平均池化降维。
- 激活函数:指数线性单元(ELU)和批归一化(Batch Normalization)。
2. Transformer编码器
- 多头自注意力(Multi-Head Attention, MHA):2个头,6层编码器,捕捉全局时序依赖。
- 前馈网络:高斯误差线性单元(GELU)激活。
3. 分类器:全连接层输出类别概率,损失函数为交叉熵。

(3)实验设计
  • 评估方式
    • 受试者内(Subject-Specific):按数据集原始划分训练/测试集。
    • 跨受试者(Cross-Subject):留一受试者交叉验证(LOSO)。
  • 超参数:学习率0.001,批量大小288(受试者内)或512(跨受试者),训练轮次1000。
(4)对比方法

与6种前沿方法对比,包括纯CNN模型(ShallowConvNet、EEGNet)、混合模型(Conformer、MI-CAT)等,均在同一实验条件下复现。

4. 主要结果

(1)分类性能
  • 受试者内
    • BCI IV-2a:平均准确率82.52%(最高达96.53%),Kappa值0.7670,优于EEGNet(77.39%)和Conformer(77.66%)。
    • BCI IV-2b:平均准确率88.49%,标准差仅9.03%,显著优于ShallowConvNet(85.13%)。
  • 跨受试者
    • BCI IV-2a:平均准确率58.64%,仅次于DeepConvNet(60.15%)。
    • BCI IV-2b:平均准确率76.27%,为所有方法中最高。
(2)消融实验
  • Transformer模块:移除后准确率下降1.77%(p<0.05),证明其全局建模能力至关重要。
  • 数据增强(S&R):移除后准确率下降7.21%(p<0.01),凸显小数据下增强策略的必要性。
(3)特征可视化

通过t-SNE降维显示,CTNet提取的特征在嵌入空间中类间距离更大、类内更紧凑(图9),表明其判别能力更强。

5. 结论与价值

  • 科学价值
    • 首次将CNN与Transformer深度融合于MI-EEG解码,验证了局部-全局特征联合建模的有效性。
    • 提出轻量化设计(仅25.7k参数),兼顾性能与计算效率。
  • 应用价值
    • 为BCI系统提供高精度、可泛化的解码工具,尤其适用于康复医疗(如瘫痪患者控制外骨骼)或智能家居控制。
  • 局限性:跨受试者解码性能仍有提升空间,未来需探索更鲁棒的域适应方法。

6. 研究亮点

  1. 方法创新:CTNet首次在EEG解码中结合卷积模块与Transformer编码器,平衡局部与全局特征。
  2. 性能优势:在两大基准数据集上刷新记录,尤其跨受试者任务表现突出。
  3. 可复现性:开源代码与模型(GitHub),推动领域内方法比较与改进。

7. 其他发现

  • 超参数分析
    • Token大小(TC=20或15)和注意力头数(h=2)对性能影响显著,过大或过小均会降低精度。
    • Transformer深度6层为最优,过深易导致过拟合。
  • 计算效率:模型训练在NVIDIA RTX3090上完成,适合嵌入式部署。

此研究为EEG信号解码提供了新范式,其混合架构设计可能启发其他时序信号处理领域(如心电图、肌电)的研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com