分享自:

基于CNN网络的运动意图脑电信号自动识别

期刊:electronicsDOI:10.3390/electronics11203297

基于端到端CNN网络自动识别运动意图的脑电图信号研究学术报告

一、 研究作者、机构及发表信息

本研究由来自多所大学和研究机构的学者共同完成。主要作者包括Nahal Shahini(阿米尔卡比尔理工大学)、Zeinab Bahrami(伊斯兰阿扎德大学鲁德亨分校)、Sobhan Sheykhivand(大不里士大学,通讯作者)、Saba Marandi(沙希德·贝赫什提大学)、Morad Danishvar和Sebelan Danishvar(布鲁内尔大学伦敦分校)以及Yousef Roosta(乌尔米亚医科大学)。该研究成果以题为《Automatically Identified EEG Signals of Movement Intention Based on CNN Network (End-to-End)》的论文形式,于2022年10月13日发表在学术期刊《Electronics》(2022年第11卷,第3297页)上。

二、 学术背景与研究目标

本研究属于脑机接口(Brain-Computer Interface, BCI)与神经工程领域,具体聚焦于基于运动想象的脑机接口(MI-EEG BCI)。这类系统通过解码大脑产生的电信号(脑电图,EEG)来识别用户的运动意图,从而使得用户(特别是运动功能障碍患者)能够不依赖外周神经和肌肉,直接通过“意念”来控制外部设备,如假肢、轮椅或计算机,在康复医学和人机交互中具有重要应用价值。

传统的运动意图自动识别方法通常依赖于手动或半自动的特征提取与选择过程。研究人员需要先从原始的EEG信号中提取一系列时域、频域或时频域特征(如事件相关去同步/同步、运动相关皮层电位等),然后使用特征选择算法筛选出最具判别性的特征子集,最后送入分类器(如支持向量机SVM、k近邻KNN等)进行分类。这种方法存在几个显著问题:1) 特征提取和选择过程复杂、耗时,且计算量大;2) 提取的特征可能并非最优,且针对不同数据集或不同受试者的泛化能力有限;3) 许多研究为了获得较好性能需要使用多通道EEG信号,这增加了患者的不适感和系统功耗,不利于实际应用。此外,文献综述表明,先前多数研究的识别准确率低于80%。

因此,本研究旨在解决上述挑战,提出一种新颖的、基于深度学习的端到端方法。其核心目标是:开发一个能够直接从原始多通道EEG信号中自动学习并识别运动意图的卷积神经网络(Convolutional Neural Network, CNN)模型,省去传统方法中繁琐且可能次优的手动特征工程步骤。该研究的具体场景包括二分类(区分左手与右手手指敲击意图)和三分类(区分左手手指敲击、右手手指敲击和静息状态)。研究的最终目标是实现高精度、鲁棒的运动意图识别,为开发更实用、舒适的BCI应用(如智能假肢)提供技术支持。

三、 研究流程与方法详述

本研究的工作流程主要包括四个阶段:EEG数据采集、数据预处理、网络架构设计与训练、以及性能评估。

第一阶段:EEG数据采集 研究对象为14名健康大学生(8女6男,年龄22-30岁)。实验在大不里士大学电气与计算机工程学院生物医学工程系的BCI实验室进行,并获得伦理许可(编号:IR.TBZ.REC.1397.3)。实验使用21通道的电极帽,按照国际10-20系统放置,采样频率为1024 Hz,参考电极为FPz和FCz。实验范式包含三种状态:静息(Resting)、右手手指敲击(Right-hand tapping)和左手手指敲击(Left-hand tapping)。每种状态重复40次,每次持续6秒。最终,每位受试者每个状态有35次有效试验数据可用。因此,每位受试者每个状态的数据量为:6秒 × 1024采样点/秒 × 35次 = 215,040个采样点(21通道总和)。实验旨在记录受试者在执行不同运动想象任务时的大脑活动。

第二阶段:数据预处理 预处理的目标是为CNN准备合适格式的输入数据,并减少计算复杂度。 1. 通道选择与数据重组:并非使用所有21个通道,研究根据先前工作[27]的指导,仅选取了六对双极导联:F3-C3, Fz-Cz, F4-C4, C3-P3, Cz-Pz, C4-P4。这覆盖了感觉运动皮层区域,且能有效降低数据维度。对于每个受试者的每个类别(如左手敲击),数据被组织为这些电极对的形式。 2. 数据分段与重叠:为了避免过拟合并增加样本数量,研究者将每个6秒长的试验数据(6144个采样点)通过重叠滑动窗口的方法,分割成多个更短的数据段。具体操作未详细说明窗口长度和重叠步长,但最终结果是,对于每个电极对,每个类别获得了1020个数据样本,每个样本的维度是 2 × 4135(即2个通道,每个通道4135个时间点)。对于二分类场景(只区分左右手),则合并左右手类别的样本,形成 (2 × 4135) × 2040 的数据矩阵。对于三分类场景,每个类别的数据维度为 (2 × 4135) × 1020。 3. 信号归一化与滤波:数据首先使用最小-最大归一化方法缩放到[0, 1]区间。随后,使用陷波滤波器去除50 Hz的工频干扰。

第三阶段:网络架构设计与训练 本研究提出了一种专门为1维EEG时序信号设计的深度CNN架构,其核心创新在于“端到端”学习,即网络输入是预处理后的原始(或近乎原始)EEG数据段,输出是分类标签,中间无需人工定义的特征提取模块。

  1. 网络架构详情:所提出的CNN模型共包含20层核心计算层(10个卷积层和10个池化层),之后连接2个全连接层和1个Softmax输出层。具体结构如表1所示:

    • 卷积层:所有卷积层均使用1维卷积。第一层使用较大的滤波器(尺寸12×1,步长8×1),旨在初步捕获信号中的宏观特征。后续卷积层主要使用较小的滤波器(尺寸3×1,步长1×1),以提取更精细的局部特征。滤波器数量从16逐渐增加到80。
    • 池化层:每个卷积层后接一个最大池化层(滤波器尺寸2×1,步长2×1),用于降低数据维度、增加特征的不变性并控制过拟合。
    • 批归一化(Batch Normalization, BN):在网络中使用以加速训练并提高稳定性。
    • 激活函数:卷积层后使用Leaky ReLU激活函数引入非线性。
    • 全连接层与输出:经过一系列卷积和池化后,特征被展平并输入到两个全连接层(第一个100个神经元),最后通过Softmax函数输出每个类别的概率。网络将原始的 2 × 4135 = 8270 维输入,逐步抽象并压缩为最终用于分类的紧凑特征表示。
  2. 网络训练与评估设置

    • 优化器与损失函数:使用Adam优化器,学习率设为0.001。损失函数采用交叉熵损失。
    • 批大小:设置为10。
    • 数据划分
      • 三分类场景:总样本数42,840。82%用于训练(35,000),18%用于测试(7,840)。训练集中再划分8%作为验证集。
      • 二分类场景:总样本数57,120。84%用于训练(48,000),16%用于测试(9,120)。训练集中再划分6%作为验证集。
    • 硬件:在一台配备4 GB RAM和2.4 GHz Core i5处理器的笔记本电脑上实现。

第四阶段:性能评估与分析 研究者对提出的方法进行了全面评估,并与现有方法进行了比较。

  1. 分类性能

    • 准确率:在F3-C3通道对上,所提CNN模型对二分类(左右手运动意图)和三分类(左右手+静息)场景的测试准确率分别达到了96.90%89.80%。这是研究的核心成果,显著高于文献中报道的大多数方法(通常低于80%)。表2展示了所有六对电极的准确率,其中F3-C3和Cz-Fz性能最佳。
    • 训练过程:通过绘制训练过程中的损失函数和验证集准确率曲线(图7-10),展示了模型能有效收敛,且未出现严重过拟合。
    • 特征可视化:通过t-SNE降维技术(图11,12)可视化了原始信号以及网络中间层(如Conv6, Conv10)和最终层(FC2)的特征分布。结果显示,随着网络层数的加深,不同类别的特征在低维空间中分离得越来越清晰,直观证明了网络自动学习到了具有高度判别性的特征表示。
    • 混淆矩阵与ROC曲线:图13和图14进一步通过混淆矩阵和受试者工作特征曲线证实了模型的高性能和高可靠性。
  2. 鲁棒性测试

    • 抗噪声能力:为了测试模型在实际噪声环境下的鲁棒性,研究者向EEG信号中添加了信噪比(SNR)从-4 dB到20 dB的加性高斯白噪声。结果显示(图16),即使在低SNR(如1 dB)条件下,模型的分类准确率依然保持在90%以上,表明该网络架构对测量噪声具有极强的抵抗力。作者将此归因于网络初始层使用大尺寸滤波器,能够捕获更鲁棒的特征。
  3. 对比实验

    • 与传统特征工程方法对比:研究将提出的CNN与使用手动提取时域特征(如最小值、最大值、偏度、峰度、均方根等)并结合深度玻尔兹曼机(DBM)或多层感知机(MLP)的方法进行对比。结果(图15)表明,CNN的性能(96%)远优于DBM(82%)和MLP(71%),并且收敛速度更快。
    • 与现有研究对比:如表3所示,将本研究的结果与多项先前研究(如使用CSP、ICA、MLP、DBM等方法)在二分类任务上的性能(灵敏度、准确率等)进行了对比。结果显示,本研究提出的方法在各项指标上均优于所列的对比方法。

四、 研究结果及其逻辑关联

本研究获得了一系列相互支撑、逐步递进的结果,共同验证了所提方法的有效性。

首先,高分类准确率(二分类96.9%,三分类89.8%)是核心直接结果。这一结果直接回答了研究的主要目标,即开发一种高精度的运动意图自动识别方法。该结果是通过对预处理后的EEG数据应用所设计的深度CNN模型,并经过严格的训练-验证-测试流程得到的。

其次,特征可视化结果(t-SNE图)为高准确率提供了内在解释。它表明,CNN网络能够从原始的、高维的、看似混杂的EEG信号中,通过层层非线性变换,自动学习到低维的、类间可分性极强的特征表示。这验证了“端到端”学习策略的有效性,即无需手动设计特征,网络本身就能完成从信号到语义(运动意图类别)的映射。

接着,鲁棒性测试结果(抗噪声性能)进一步拓展了核心结果的应用价值。它表明,所获得的高准确率并非在理想洁净数据下的特例,而是在模拟的真实噪声环境下依然能够保持。这增强了该方法的实用性和可靠性,因为实际采集的EEG信号总是包含各种噪声。这一结果与网络架构的设计(特别是初始层的大滤波器)形成了逻辑呼应,说明该设计有助于提取对噪声不敏感的稳健特征。

最后,对比实验结果将本研究置于更广阔的学术背景中。与基于手动特征的传统机器学习方法(DBM, MLP)对比,凸显了深度学习自动特征学习的巨大优势。与以往文献中的多种方法对比,则定量地证明了本研究在性能上取得了显著提升。这些对比结果共同支撑了本研究的贡献与创新性,即提出了一种在精度和鲁棒性上都优于现有主流方法的新方案。

五、 研究结论与价值

本研究成功提出并验证了一种基于端到端卷积神经网络的运动意图自动识别新方法。主要结论如下:

  1. 方法有效性:该方法能够直接从原始多通道EEG信号中自动学习判别性特征,并实现高精度的运动意图分类(二分类96.9%,三分类89.8%),性能优于许多需要复杂特征工程的传统方法。
  2. 架构优势:所设计的10层CNN架构具有强大的特征学习能力和抗噪声鲁棒性。其采用“大-中-小”滤波器组合的策略,使其能在宽SNR范围(-4 dB 到 20 dB)内保持超过90%的准确率。
  3. 应用潜力:该方法避免了繁琐的手动特征提取与选择,简化了BCI系统的处理流程,降低了算法复杂度。同时,其对少数关键电极对(如F3-C3)的高性能表现,暗示了未来开发基于更少通道、更舒适便携的BCI设备的可能性。

该研究的价值体现在: * 科学价值:为基于EEG的BCI研究提供了一种新的范式,即利用深度学习的强大表示学习能力,替代传统信号处理中的特征工程,这可能启发后续更多端到端BCI解码模型的研究。 * 应用价值:高精度和强鲁棒性使其在临床康复工程中具有直接应用前景,例如为截肢患者开发响应更灵敏、控制更精准的智能假肢控制系统,或为中风患者提供更有效的运动功能康复训练工具。

六、 研究亮点

  1. 端到端的自动特征学习:这是本研究最核心的创新点。它彻底摒弃了传统BCI解码流程中依赖先验知识的手动特征工程步骤,让模型直接从数据中学习最优特征,简化了流程并可能发现人类难以设计的有效特征组合。
  2. 优异的性能表现:在公开对比中,其分类准确率(特别是二分类96.9%)显著超过了文献中报道的多数方法,将自动运动意图识别的性能提升到了一个新的水平。
  3. 强大的噪声鲁棒性:专门设计的网络架构(首层大滤波器)使其对加性高斯白噪声具有异乎寻常的抵抗力,这在实际应用中至关重要,因为EEG信号极易受到干扰。
  4. 针对性的网络设计:网络是针对1维EEG时序信号量身定制的深度CNN,而非简单套用图像处理的2D-CNN,体现了领域适应性。
  5. 考虑实际应用场景:研究不仅关注分类精度,还通过测试不同电极对的性能、评估模型抗噪能力,考虑了方法在真实BCI应用中的可行性和舒适性(减少通道数)。

七、 其他有价值的内容

研究中对数据进行了细致的预处理,包括使用重叠采样来增加数据量以缓解深度学习模型对大数据量的需求,以及选择特定的感觉运动区电极对来聚焦与运动意图最相关的大脑区域信号,这些实践细节对后续研究者复现或改进工作具有参考价值。此外,论文提供了非常详细的网络结构参数(表1)和训练超参数,增强了研究的可重复性。同时,作者也客观指出了未来可将此方法应用于更复杂的多类运动想象任务或结合其他神经信号模态,展望了进一步的研究方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com