分享自:

基于大规模脑电图数据的通用学习表示的大型脑模型

期刊:ICLR

大型脑模型LaBraM:基于大规模EEG数据的通用表征学习突破

一、作者与发表信息
本研究的通讯作者为上海交通大学的Bao-Liang Lu与上海情绪助手科技有限公司的Li-Ming Zhao,第一作者为Wei-Bang Jiang。研究团队来自上海交通大学和上海情绪助手科技有限公司,成果以会议论文形式发表于ICLR 2024(International Conference on Learning Representations)。


二、学术背景
科学领域与问题背景
脑机接口(BCI)领域长期依赖特定任务设计的深度学习模型,但传统模型受限于数据规模小、电极配置多样性和信号信噪比低等问题,泛化能力不足。受大型语言模型(LLMs)在文本处理中成功的启发,本研究提出首个面向脑电图(EEG)信号的大型脑模型LaBraM(Large Brain Model),旨在通过无监督预训练学习EEG的通用表征,突破任务与数据集间的壁垒。

研究目标
1. 构建兼容多通道、可变时长EEG信号的统一基础模型;
2. 开发基于神经编码本的语义化EEG信号离散化方法;
3. 验证模型在异常检测、事件分类等下游任务中的性能优势。


三、研究流程与方法
1. 数据收集与预处理
- 数据规模:整合20个公开数据集及自主采集数据,覆盖2,500小时EEG信号,包括癫痫分类(TUEP)、情绪识别(SEED系列)、运动想象(BCI Competition IV-1)等任务。
- 预处理:信号经0.1-75 Hz带通滤波、50 Hz工频陷波,统一采样至200 Hz,归一化至±1范围。

2. 神经分词器(Neural Tokenizer)开发
- 创新方法:提出向量量化神经频谱预测(Vector-Quantized Neural Spectrum Prediction),将EEG信号分块(1秒/块)后,通过傅里叶变换提取振幅与相位特征,训练编码器将连续信号映射至离散神经编码本(8,192个64维向量)。
- 技术细节:采用Transformer架构的神经解码器重构频谱,损失函数结合频谱MSE和编码本余弦相似度优化(公式9)。

3. LaBraM预训练
- 掩码建模:随机屏蔽50%的EEG块,通过时空嵌入(时空位置编码)的Transformer预测被屏蔽块的神经编码。引入对称掩码策略(同步预测未屏蔽块)提升效率。
- 模型规模:设计Base(5.8M参数)、Large(46M)、Huge(369M)三个版本,Transformer层数分别为12/24/48。

4. 下游任务微调
- 任务类型:在TUAB(异常检测,409,455样本)、TUEV(事件分类,112,491样本)等数据集验证。
- 微调策略:冻结预训练主干,添加任务特定输出层,采用交叉熵损失优化。


四、主要结果
1. 预训练性能
- Huge模型在掩码预测准确率上显著优于Base(图3),表明模型规模与数据量正相关。
- 神经分词器成功重构EEG频谱特征(图7),振幅重构误差较相位低30%,验证编码本的有效性。

2. 下游任务表现
- TUAB异常检测:LaBraM-Huge的AUROC达0.9162(表1),较最优基线(BIO-T)提升3.5%。
- TUEV事件分类:Huge模型的加权F1为0.8329(表2),较基线提高11.3%,尤其在癫痫放电(SPIW)类别表现突出。
- 跨数据集兼容性:通过时空嵌入统一处理不同电极配置(如64通道vs 23通道),无需重新训练。

3. 数据规模实验
- 预训练数据量需与模型规模匹配:Base模型在500小时数据下性能饱和,而Huge模型在2,500小时后仍呈上升趋势(图5),符合缩放定律(Scaling Law)。


五、结论与价值
科学意义
1. 首次证明大规模无监督预训练可提取EEG通用表征,为BCI领域提供新范式;
2. 神经编码本与掩码建模的结合解决了EEG信号低信噪比与异构性难题。

应用价值
1. 单模型适配多类BCI任务,降低临床部署成本;
2. 开源代码与模型(GitHub)推动领域标准化发展。


六、研究亮点
1. 方法创新:提出首个EEG专用分词器与掩码预训练框架,突破传统CNN/RNN的局限性;
2. 规模突破:预训练数据量(2,500小时)与模型参数(369M)均为领域之最;
3. 性能优势:在4类下游任务中全面超越SOTA,如TUEV的Cohen’s Kappa提升27%。


七、其他发现
- 标签效率:预训练中加入未标注的下游数据(如TUAB)未显著提升性能(图4),证明模型真正学习到通用特征;
- 计算优化:对称掩码策略使训练速度提升2倍(附录I),为大规模EEG建模提供工程参考。

(全文约2,200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com