基于Transformer的稳态视觉诱发电位分类深度神经网络模型

分享自：
基于Transformer的稳态视觉诱发电位分类深度神经网络模型

人工智能
信息科学
期刊:Neural NetworksDOI:10.1016/j.neunet.2023.04.045
【点击此处】阅读全文、收藏及针对性提问
学术研究报告：一种基于Transformer架构的稳态视觉诱发电位分类深度神经网络模型
本研究由Jianbo Chen、Yangsong Zhang、Yudong Pan、Peng Xu和Cuntai Guan共同完成。研究团队主要来自中国西南科技大学计算机科学与技术学院、大脑科学与医疗人工智能实验室，以及电子科技大学生命科学与技术学院、神经信息教育部重点实验室、成都脑科学研究院临床医院和生物医学信息中心，其中Yangsong Zhang和Peng Xu为通讯作者。合作单位还包括新加坡南洋理工大学计算机科学与工程学院。该研究成果于2023年5月5日在线发表于国际学术期刊《neural networks》2023年第164卷。
本研究的学术背景属于脑机接口（Brain-Computer Interface, BCI）领域，具体聚焦于基于脑电图（Electroencephalogram, EEG）的稳态视觉诱发电位（Steady-State Visual Evoked Potential, SSVEP）分类方法。稳态视觉诱发电位是脑机接口系统中一种常用的控制信号，因其信噪比较高、用户训练时间短而广受欢迎。传统的SSVEP分类方法（如典型相关分析CCA及其变体）虽然在受试者内（intra-subject）场景下表现良好，但其性能高度依赖于针对特定用户收集的校准数据。由于脑电信号的个体差异大（即个体间变异性，inter-subject variability），且采集校准数据耗时耗力，开发能够在个体间（inter-subject）场景下有效工作、减少对新用户校准数据依赖的方法，成为一个紧迫且富有挑战性的研究方向。
近年来，深度学习方法在多种EEG分类任务中展现出强大潜力。然而，现有的基于深度学习的SSVEP识别模型在个体间场景下仍有很大的提升空间，以满足实际应用需求。同时，深度学习的“黑箱”性质使得模型的可解释性有待探究。Transformer架构自提出以来，在自然语言处理和计算机视觉等领域取得了突破性进展，并因其优异的特征提取能力和相对更好的可解释性而受到关注。已有研究将Transformer应用于其他EEG分类任务并取得了令人印象深刻的结果，但在此之前，Transformer尚未被应用于SSVEP分类。
基于此背景，本研究旨在探索Transformer架构在SSVEP分类中的可行性，目标在于提出一种能够在个体间分类场景下（即使用已有受试者数据训练模型，并直接应用于新受试者，无需新受试者校准数据）实现高性能SSVEP分类的深度学习模型。研究的具体目标是：1）设计并实现首个基于Transformer架构的SSVEP分类模型；2）通过整合滤波器组（Filter Bank）技术来充分利用SSVEP的谐波信息，进一步提升模型性能；3）在公开数据集上验证所提模型的有效性，并与现有主流方法进行性能对比；4）通过可视化技术初步探索模型的可解释性。
详细研究流程： 本研究主要包含以下几个核心环节：1) 模型设计与提出；2) 实验数据准备与预处理；3) 基线方法选择与模型实现设置；4) 个体间分类场景下的性能评估；5) 受试者特异性自适应方案的性能评估；6) 消融实验与模型分析（包括输入特征有效性、注意力机制影响、计算复杂度及模型可视化解释）。
首先，在模型设计环节，研究者提出了两个核心模型：SSVEPformer和FB-SSVEPformer。SSVEPformer是基础模型，其设计灵感来源于传统Transformer，但针对SSVEP数据的特性进行了定制化改造。模型输入采用SSVEP数据的复数频谱特征（complex spectrum features），即对每个通道的时域EEG数据进行快速傅里叶变换后，将其实部和虚部拼接起来。这种表示方法能同时保留信号的幅度和相位信息，而先前研究已证明相位信息对SSVEP分类至关重要。模型主体结构包含六个模块：输入、复数频谱表示、通道组合、SSVEPformer编码器、多层感知机头和输出。其中，通道组合块使用一维卷积层对多个EEG通道进行加权组合，类似于传统方法中的空间滤波，旨在抑制噪声并增强SSVEP成分，输出通道数设置为输入通道数的2倍。SSVEPformer编码器是模型的核心，由两个相同的子编码器堆叠而成。每个子编码器包含一个CNN模块和一个通道MLP模块，用CNN模块替代了原始Transformer中的多头注意力机制。研究者认为，在有限训练数据下，注意力机制可能导致参数量过大和过拟合风险，而CNN模块能以更少的参数实现有效的特征融合。通道MLP模块则对每个通道的特征进行非线性变换。每个模块都采用了残差连接以促进训练。FB-SSVEPformer是SSVEPformer的扩展版本，旨在更充分地利用SSVEP信号中的谐波信息。它基于滤波器组技术：原始EEG数据被分解成多个子频带（本研究最终选定为3个子频带），每个子频带的数据分别输入一个SSVEPformer子网络进行处理。各子网络的输出通过一个带可学习权重的卷积操作进行加权融合，得到最终分类结果。这种设计允许模型自适应地学习各谐波频带对分类的贡献权重。
其次，在数据准备方面，研究使用了两个公开的SSVEP数据集进行评估。数据集1来自Nakanishi等人2015年的工作，包含10名受试者，对应12个目标刺激频率（9.25-14.75 Hz，间隔0.5 Hz），使用8个枕区电极记录。数据集2来自Wang等人2016年的工作，包含35名受试者，对应40个目标（使用联合频率相位调制，频率范围8-15.8 Hz，间隔0.2 Hz），使用9个枕区电极记录。这种选择保证了模型在不同目标数和受试者规模下的泛化能力评估。预处理包括：选取特定时间窗的数据段（考虑了视觉延迟和提示时间），对时域数据使用8-64 Hz带通滤波，对频域输入则使用快速傅里叶变换得到复数频谱，并截取8-64 Hz范围的频谱作为模型输入。
第三，研究选择了五种基线方法进行对比，涵盖了传统方法和深度学习方法：基于滤波器组的典型相关分析（FBCCA）、任务相关成分分析（TRCA）、深度卷积网络（DeepConvNet）、专门为EEG设计的EEGNet以及使用复数频谱特征的卷积神经网络（CCNN）。所有深度学习模型均使用PyTorch框架实现。对于SSVEPformer和FB-SSVEPformer，使用随机梯度下降算法进行优化，采用交叉熵损失函数，并设置了Dropout和L2正则化以防止过拟合。性能评估指标采用分类准确率和信息传输率（Information Transfer Rate, ITR）。
第四，核心实验是个体间分类场景评估。采用留一受试者交叉验证法：每次将一个受试者的数据作为测试集，其余所有受试者的数据作为训练集，循环直至所有受试者都被测试一次。在数据长度从0.5秒到1.2秒变化的一系列实验中，评估所有方法的性能。
第五，为了探索在实际应用中利用少量新用户数据进行快速校准的可能性，研究者设计了受试者特异性自适应方案实验。在该实验中，首先使用个体间场景下的数据预训练模型，然后利用测试受试者自身的少量数据块（例如1个数据块，包含该受试者所有目标的部分 trials）对预训练模型进行微调（fine-tuning），最后在测试受试者剩余的数据上进行测试。这模拟了实际系统中用极短校准时间提升模型对特定用户适应性的过程。
第六，为了验证模型各组成部分的必要性和不同设计选择的影响，研究者进行了一系列消融实验与分析。这些实验包括：1）比较不同输入形式（时域信号、幅度谱、幅度谱+相位角、复数频谱）的性能；2）比较SSVEPformer与其使用标准多头注意力机制的变体（SSVEPformer-MHA）的性能；3）依次移除或替换通道组合块、SSVEPformer编码器、MLP头等核心模块，观察性能变化；4）统计并对比各模型的参数量、训练时间和测试时间，评估计算复杂度。
第七，为了增强模型的可解释性，研究者采用了t分布随机邻域嵌入（t-SNE） 对模型学习到的特征进行降维可视化，并采用梯度加权类激活映射（Grad-CAM） 技术来可视化SSVEPformer编码器在做出分类决策时对输入数据不同频率位置的关注程度（即“热力图”）。此外，还可视化了通道组合块中卷积核的权重，以观察模型学到的“空间滤波器”模式。
主要研究结果： 在个体间分类场景下，SSVEPformer和FB-SSVEPformer在两个数据集上均超越了所有基线方法。具体而言，在使用1秒数据长度时，在数据集1（12类）上，SSVEPformer和FB-SSVEPformer的平均准确率分别为84.04%和88.33%，平均ITR分别为102.20 bits/min和112.18 bits/min。在数据集2（40类）上，两者平均准确率分别为80.40%和83.19%，平均ITR分别为149.95 bits/min和157.65 bits/min。统计分析（双向重复测量方差分析和配对t检验）表明，FB-SSVEPformer的性能显著优于所有其他对比方法，SSVEPformer也显著优于除CCNN外的大部分基线方法（在某些数据长度下与CCNN性能相当或更优）。结果清晰地显示，随着数据长度的增加，所有方法的准确率和ITR均呈上升趋势，但所提出的模型在各个数据长度下均保持了性能优势。这表明所提模型能有效应对个体间变异性的挑战，在无需新用户校准数据的情况下实现高精度分类。
在受试者特异性自适应方案实验中，结果非常鼓舞人心。在数据集2上，仅使用测试受试者的1个数据块（约40 trials）进行微调，就使SSVEPformer和FB-SSVEPformer的准确率从个体间场景下的80.40%和83.19%分别大幅提升至92.20%和93.52%。随着用于微调的数据块数量从1个增加到5个，模型性能进一步提升，方差逐渐减小。这一结果证明，所提出的模型能够利用极少量的用户特异性数据快速适应新用户，为实现“即插即用”型低校准脑机接口系统提供了强有力的技术支撑。
一系列消融实验与分析的结果为模型设计提供了有力佐证：1）复数频谱输入的有效性：使用复数频谱特征（x_comp）作为输入，在两个数据集和两个模型上都取得了最佳性能，显著优于时域信号、幅度谱等其他输入形式，验证了保留相位信息的重要性。2）CNN模块替代注意力机制的优势：SSVEPformer和FB-SSVEPformer的性能均显著优于其对应的多头注意力变体（MHA变体），且参数量更少。这表明在当前数据规模下，用CNN模块替换注意力机制是更有效且高效的选择，降低了过拟合风险。3）模型架构的合理性：消融实验表明，通道组合块、SSVEPformer编码器和MLP头三个核心模块都是必要的，移除任何一个都会导致性能下降，三者共同作用才能达到最佳性能。4）计算复杂度：虽然FB-SSVEPformer由于包含多个子网络而拥有最多的参数量（数据集2上约926万）和最长的训练时间，但其测试单样本的时间仍低于3毫秒，完全满足在线脑机接口系统的实时性要求。SSVEPformer的参数量和测试时间处于可接受范围，且训练时间短于DeepConvNet和EEGNet。
模型可视化与解释性分析结果为理解模型工作机制提供了洞见。t-SNE可视化显示，相比于EEGNet和CCNN，SSVEPformer和FB-SSVEPformer学习到的特征在嵌入空间中具有更小的类内距离和更大的类间距离，这直观地解释了其分类性能更优的原因。Grad-CAM可视化结果显示，SSVEPformer编码器在做出分类决策时，对输入复数频谱中刺激基频及其谐波频率位置赋予了最高的权重（热力图显示为高亮），而对其他频率位置关注度较低。这清晰表明模型确实学会了关注与SSVEP相关的关键频率特征，而不是无关噪声，其决策机制具有合理的可解释性。此外，对通道组合块权重的可视化显示，模型学习到的“空间滤波器”给予了枕中线附近电极（如POz、Oz）较高的权重，这与SSVEP信号主要产生于视觉皮层的生理知识相符，进一步增强了模型的可信度。
研究结论： 本研究成功设计并验证了首个基于Transformer架构的SSVEP分类深度学习模型——SSVEPformer及其滤波器组扩展版本FB-SSVEPformer。主要结论如下：该模型在个体间分类场景下，无需新用户的任何校准数据，即可在两个公开数据集上取得优于现有主流方法的分类性能，展现了强大的泛化能力和应对个体差异的潜力。通过受试者特异性自适应方案，模型能够利用极少量（如1个数据块）的用户数据快速适配，将准确率提升至90%以上，这为开发低校准甚至零校准的实用化SSVEP-BCI系统提供了切实可行的技术路径。研究表明，采用复数频谱作为输入、用CNN模块定制化改造Transformer编码器、并结合滤波器组技术充分利用谐波信息，是构建高效SSVEP分类模型的有效策略。
研究的价值与意义体现在多个层面：在科学价值上，它首次将Transformer架构引入SSVEP分类领域，拓展了深度学习在该方向的应用边界，并为理解Transformer类模型处理生理时序信号提供了新的案例。模型设计中关于输入表示、注意力机制替代、谐波信息融合的探索，对相关领域的算法设计具有启发意义。在应用价值上，所提模型显著缓解了传统SSVEP-BCI系统对大量用户校准数据的依赖，降低了使用门槛和准备时间，朝着“开箱即用”的便捷脑机接口交互目标迈进了一大步，有望促进SSVEP-BCI在医疗康复、神经娱乐、智能家居等领域的实际落地。
研究亮点包括：1）方法新颖性：首次提出并实现了基于Transformer的SSVEP分类模型（SSVEPformer）。2）性能优越性：在个体间场景下，其性能超越了一系列代表性传统方法和深度学习方法。3）实用性强：通过受试者自适应微调，能以极少数据实现高性能，具备很高的实用潜力。4）可解释性探索：综合运用t-SNE、Grad-CAM等技术对模型决策过程进行可视化分析，增强了这个“深度学习黑箱”的透明度和可信度。5）系统化验证：在两个规模、目标数不同的公开数据集上进行了全面、严格的实验对比与消融分析，结论稳健可靠。
其他有价值的点：研究还讨论了模型的局限性，例如仅在两个数据集上验证、需要较多历史受试者数据进行训练、以及尚未进行在线系统测试等，为未来的研究方向指明了道路，如在大规模数据集（如BETA数据集）上测试、探索小样本学习以进一步减少训练数据依赖、以及开展在线实验验证等。这些坦诚的讨论体现了研究的严谨性和前瞻性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问