这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
大型脑模型LabRAM:基于大规模EEG数据的通用表征学习
作者及机构
本研究由Wei-Bang Jiang(上海交通大学)、Li-Ming Zhao(上海情绪助手科技有限公司)和Bao-Liang Lu(上海交通大学/上海情绪助手科技有限公司)共同完成,发表于ICLR 2024会议。
学术背景
研究领域为脑机接口(BCI)中的脑电图(Electroencephalogram, EEG)信号处理。当前基于EEG的深度学习模型通常针对特定数据集或任务设计,模型规模受限,导致感知能力和泛化性不足。受大型语言模型(LLMs)在文本处理中的成功启发,研究者提出探索大型EEG模型(LEMs)的潜力,旨在通过无监督预训练突破不同EEG数据集的任务类型限制,学习EEG信号的通用表征能力,并适应多种下游任务。然而,EEG数据面临数据量小、格式多样(如电极数量不匹配、样本长度不等、信噪比低)等挑战。为此,研究者提出“大型脑模型”(Large Brain Model, LabRAM),通过跨数据集学习解决这些问题。
研究流程与方法
1. 数据准备与预处理
- 收集了约2,500小时的EEG数据,涵盖20个公开数据集及自主采集数据,包括运动想象、情绪识别、癫痫检测等多种任务类型。
- 预处理包括滤波(0.1–75 Hz)、50 Hz陷波滤波去除工频干扰,并将信号重采样至200 Hz。数据归一化为-1到1范围。
神经标记器(Tokenizer)训练
LabRAM预训练
下游任务微调
主要结果
1. 预训练效果
- 预训练损失和掩码预测准确率随模型规模增大而提升(图3),LabRAM-huge在更大数据量下表现持续优化(图5)。
- 码本学习有效捕获EEG高频特征,频谱重建可视化显示振幅趋势还原良好(图7)。
结论与价值
1. 科学意义
- 首次实现跨任务、跨配置的大规模EEG预训练,证明EEG数据可通过无监督学习获得通用表征能力。
- 提出的神经标记器和掩码建模框架为低信噪比时序信号处理提供新范式。
研究亮点
1. 方法创新:
- 向量量化神经频谱预测首次将EEG信号离散化为语义标记,解决原始信号重构难题。
- 对称掩码策略提升预训练效率,减少50%的标记器计算开销。
其他发现
- 码本大小(8192×64)和掩码比例(0.5)通过消融实验验证为最优配置(表7–8)。
- 频谱相位重建难度高于振幅,但码本仍能学习到高层神经活动特征(图6)。
该研究为EEG通用表征学习奠定了重要基础,未来可通过更大规模数据进一步探索模型潜力。