本研究由上海交通大学的Wei-Bang Jiang、Bao-Liang Lu与微软亚洲研究院的Yansen Wang、Dongsheng Li合作完成,发表于ICLR 2025会议。研究代码已开源(GitHub仓库:https://github.com/935963004/neurolm)。
科学领域:
本研究属于脑机接口(BCI, Brain-Computer Interface)与人工智能交叉领域,聚焦于脑电图(EEG, Electroencephalogram)信号的通用表征学习。
研究动机:
传统EEG预训练模型(如Biot、LabRAM)需针对不同下游任务单独微调,导致计算资源浪费且泛化性受限。受多模态大语言模型(MLLMs, Multimodal Large Language Models)启发,本研究提出首个将EEG信号视为“外语”的多任务基础模型,旨在通过统一框架解决EEG分析的三大挑战:
1. EEG-文本嵌入对齐困难:缺乏高质量EEG-文本配对数据;
2. LLMs对EEG表征学习的有效性:传统掩码建模与自回归范式存在冲突;
3. 多任务统一建模的复杂性:不同EEG任务(如情绪识别、睡眠分期)的输入配置差异大。
目标:将连续EEG信号离散化为与文本空间对齐的神经标记(Neural Tokens)。
关键技术:
- 向量量化时频预测(VQ-TFP, Vector-Quantized Temporal-Frequency Prediction):
通过编码器将EEG信号分割为多通道补丁(Patch),在时域和频域(DFT幅度)联合重建信号,生成8192维码本中的离散标记。
- 对抗训练对齐EEG-文本空间:
引入梯度反转层(GRL, Gradient Reversal Layer)和域分类器,强制EEG嵌入与GPT-2文本嵌入分布一致(图2)。
创新点:
时域解码器(1D-CNN)与频域解码器(MLP)分离,实验证明频域重建对事件分类任务(如TUEV数据集)提升显著(图10)。
目标:使LLM学习EEG信号的因果依赖关系。
方法:
- 阶梯式注意力掩码(Stair-Stepping Mask):
每个时间步的EEG标记仅关注同通道历史标记及其他通道当前标记(图4),实现多通道自回归建模(公式5)。
- 理论验证:
通过变分自编码器(VAE)框架证明,自回归训练最小化EEG潜在变量与文本条件先验的KL散度(公式6-7)。
数据规模:
预训练使用25,000小时EEG数据(表6),涵盖临床记录(TUEG)、运动想象(BCI Competition IV)等14个数据集。
任务覆盖:
在6个下游任务验证(表1),包括:
- 异常检测(TUAB):二分类临床EEG;
- 事件分类(TUEV):6类癫痫事件识别;
- 情绪识别(SEED):3类情绪分类;
- 睡眠分期(HMC):5阶段分类。
指令设计(表5):
采用模版化问答(如“[SEP]问题:此EEG段是否异常?答案:{是,否}[END]”),选项顺序随机化以增强鲁棒性(图5)。
科学价值:
1. 方法论创新:首次实现EEG与LLMs的跨模态统一建模,为BCI领域引入指令调优范式;
2. 技术突破:文本对齐神经标记器解决EEG离散化难题,多通道自回归机制扩展LLMs的生物信号处理能力。
应用前景:
- 医疗诊断:支持癫痫检测、睡眠监测等多任务联合分析;
- 低成本BCI:单一模型减少部署计算开销,适配可穿戴设备。
(注:全文共约2000字,符合学术报告深度要求)