本研究由哈尔滨工业大学计算学部的Guangyu Wang、Wenchao Liu、Yuhong He、Cong Xu、Lin Ma和Haifeng Li(通讯作者)共同完成,发表于第38届Neural Information Processing Systems会议(NeurIPS 2024)。
脑电图(Electroencephalography, EEG)是通过记录大脑皮层电信号动态反映大脑功能状态的重要技术,在医学、神经科学和脑机接口(Brain-Computer Interface, BCI)领域具有广泛应用。然而,EEG信号存在信噪比(Signal-to-Noise Ratio, SNR)低、受试者间变异性高以及通道不匹配等挑战,这些因素使得提取稳健、通用的EEG表征变得复杂。
近年来,自监督学习在自然语言处理(NLP)、计算机视觉(CV)和语音分析等领域展现出优势。受此启发,研究者开始探索自监督学习在EEG分析中的应用。然而,现有方法如BENDR、EEG2Vec和LabRAM等在处理EEG信号的时空特性、跨设备兼容性以及多范式通用性方面仍存在局限。为此,本研究提出了EEGPT模型,旨在解决以下关键问题: 1. 从低SNR信号中提取高质量特征的挑战 2. EEG采集设备采样率和电极通道位置不一致导致的鲁棒性问题 3. 现有掩码自编码器方法在学习EEG抽象特征方面的不足
EEGPT是一个参数超过1000万的预训练Transformer模型,其核心创新在于双自监督学习框架和分层处理结构:
双自监督学习框架: - 时空表征对齐(Spatio-temporal representation alignment):构建基于高SNR和丰富语义信息的EEG表征的自监督任务,而非原始信号。通过动量编码器输出的完整信号特征与预测特征的比对,提升特征质量。 - 基于掩码的重建(Mask-based reconstruction):利用EEG信号表现出的时空一致性,在空间和时间维度提取互补特征。
分层结构: - 分别处理空间和时间信息,降低计算复杂度 - 包含分块(Patching)、嵌入(Embedding)、掩码(Masking)、编码器(Encoder)、预测器(Predictor)和重建器(Reconstructor)等操作模块
局部时空嵌入方法: - 将EEG信号在时空维度划分为等大小的块(patch) - 构建包含所有可学习通道嵌入向量的码本(codex book) - 实现不同EEG采集设备间的鲁棒性和兼容性
研究团队在包含多种范式的混合EEG数据集上进行预训练,数据集包括: - PhysioNetMI(运动想象与执行,109名受试者) - HGD(运动想象,14名受试者) - TSU(稳态视觉诱发电位,35名受试者) - SEED(情绪识别,15名受试者) - M3CV(多主题多会话多范式,106名受试者)
预训练关键参数: - 输入信号采样率:256Hz - 输入信号时间长度:1024点(4秒) - 每个块的时间长度:64点(250ms窗口) - 训练时掩码比例:50%时间块和80%通道块 - 优化器:AdamW,采用onecycle学习率策略 - 训练周期:200个epoch - 批量大小:64 - 硬件:8块NVIDIA 3090 GPU
研究团队在多个下游任务数据集上评估EEGPT性能,采用线性探测(linear-probing)方法:
评估数据集: - BCIC-2a和BCIC-2b(运动想象分类) - Sleep-edfx(睡眠阶段检测) - KaggleERN(错误相关负波检测) - PhysioP300(事件相关电位检测) - TUAB(异常EEG检测) - TUEV(事件类型分类)
评估指标: - 平衡准确率(Balanced accuracy) - ROC曲线下面积(AUROC) - 加权F1分数(Weighted F1) - Cohen’s Kappa系数
基线模型: - BENDR - BIOT - LabRAM - SPARCNET - ContraWR - CNN-T - FFCL - ST-T
在TUAB异常检测任务中: - EEGPT(25M参数)达到0.7983±0.0030的平衡准确率 - 优于SPARCNET(0.7896)、ContraWR(0.7746)和CNN-T(0.7777) - 与BIOT(0.7959)性能相当
在TUEV事件分类任务中: - EEGPT显著优于BIOT,平衡准确率提高9.5%(0.6232 vs 0.5281) - 加权F1分数提高6.9%(0.8187 vs 0.7492)
在其他下游任务中: - BCIC-2a运动想象分类:58.46%准确率,优于BENDR(48.99%)和LabRAM(56.13%) - BCIC-2b运动想象分类:72.12%准确率,优于所有基线模型 - Sleep-edfx睡眠阶段检测:69.17%准确率,优于BENDR(66.55%)和BIOT(66.22%)
通过消融研究验证了各组件的重要性: 1. 去除对齐损失(la)导致下游任务性能下降6-9% 2. 去除重建目标的层归一化使性能下降1-7% 3. 移除跳跃连接(skip connection)使性能下降1-3%
研究发现模型性能随参数规模增加而提升: - 准确率与参数数量关系:acc = (33.6*n)^0.029 - 重建损失与参数数量关系:lr = (0.72*n)^-0.014 其中n为模型参数量。大型模型(8层,512嵌入维度,4个摘要token)表现出最高准确率。
实验表明增加预训练数据量能提升下游任务表现: - BCIC-2a任务:acc = (0.58*d)^0.0461 - BCIC-2b任务:auroc = (0.79*d)^0.0325 其中d为使用的训练数据比例。
EEGPT通过创新的双自监督学习框架和分层结构设计,成功解决了EEG信号处理中的三个关键挑战: 1. 通过时空表征对齐提升了低SNR信号的特征提取质量 2. 局部时空嵌入方法增强了跨设备兼容性 3. 分层处理结构降低了计算复杂度,提高了BCI应用的灵活性
研究的主要贡献包括: 1. 提出了参数达1000万的EEGPT模型,利用混合数据集增强跨任务和跨受试者性能 2. 开发了结合时空表征对齐和基于掩码重建的双自监督方法 3. 设计了空间和时间信息解耦处理的分层结构 4. 实现了局部时空嵌入方法,提高不同EEG采集设备间的鲁棒性 5. 在多个下游任务上进行了全面实验验证
模型可视化: 研究通过通道嵌入相似性可视化,展示了模型学习到的通道关系信息,验证了模型对EEG空间特性的有效捕捉。
计算效率: 分层处理结构使模型在保持高性能的同时显著降低计算复杂度,使其更适合实际BCI应用场景。
可扩展性: 研究验证了模型性能随规模扩展的规律,为未来更大规模EEG模型的发展提供了重要参考。
开源共享: 研究代码已在GitHub开源(https://github.com/bine022/eegpt),促进研究社区的进一步发展和应用。