本文发表在国际期刊《information sciences》2020年第507卷上,主要作者包括Shaonan Wang(通讯作者)、Jiajun Zhang、Haiyan Wang、Nan Lin和Chengqing Zong。他们来自中国科学院及其下属的多个研究机构,包括模式识别国家重点实验室、脑网络组研究中心、行为科学重点实验室,以及中国科学院大学。
本研究属于认知神经科学与计算语言学交叉领域,具体聚焦于功能性磁共振成像(fMRI)的神经解码(Neural Decoding),特别是fMRI词汇解码。此项研究的动机在于克服现有“读心术”(Mind-reading)技术研究的局限性。以往的研究大多局限于解码来自少数语义类别的具体名词,并且使用了不同的词汇刺激呈现范式(Stimuli Paradigm)和计算模型,这使得人们难以全面理解不同因素(如词汇类别、实验范式、词汇表征模型)对解码效果的系统性影响。因此,本研究的核心目标是提供一个对fMRI词汇解码任务的全面、细致的评估,以探究何种条件下、使用何种方法能够最有效地从大脑活动图像中解码出受试者正在思考的词汇。其具体研究目标包括:(1)探究词汇解码器在不同词类(如名词、动词、形容词)上的表现差异;(2)评估不同刺激呈现范式(如图片、句子、词云)对解码性能的影响;(3)比较八种不同类型的词嵌入模型(Word Embedding Models)在解码大脑激活模式方面的能力;(4)分析不同实验条件下最具信息量的体素(Informative Voxels)分布,以探索其背后的神经基础。
本研究的工作流程遵循了标准的fMRI解码范式,主要包括以下几个关键步骤:
第一步,数据获取与预处理。研究使用了Pereira等人公开的大型fMRI数据集。该数据集包含了15名参与者在接受三种不同范式(句子、图片、词云)刺激时,对180个概念词(包括131个名词、22个动词、21个形容词和6个副词)的大脑反应成像数据。所有功能成像数据均经过了标准的预处理流程,包括时间层校正、头动校正、空间标准化等。最终,通过广义线性模型(GLM)将每个刺激呈现期间的血氧水平依赖信号转化为一个静态的激活向量,每个参与者、每个范式、每个词汇都对应一个大脑激活模式向量。
第二步,体素选择。为了降低数据维度并减少噪声,研究采用了与源数据集相同的体素选择方法。在每次10折交叉验证的训练集中,单独选取了5000个最具信息量的体素用于后续建模,以确保选择过程不会引入测试集的信息泄露。
第三步,词汇表征。研究使用了八种不同类别的词嵌入模型来构建每个刺激词的语义特征向量。这些模型涵盖了多种信息来源:文本类(包括Word2Vec、FastText和GloVe,基于大规模文本语料库训练)、语言学类(Dependency-based,基于句法依存关系)、概念知识类(包括基于WordNet的RWSGWN和基于知识图谱的ConceptNet)、上下文类(ELMo,基于深层双向语言模型)以及视觉类(VGG,基于深度卷积神经网络从图片中提取特征)。此外,研究还通过平均或拼接两种方式,将这些基础模型组合成了多模态模型和元词模型进行测试。
第四步,解码模型构建与评估。研究采用岭回归作为线性映射函数,来学习从5000维的fMRI激活向量空间到词嵌入向量空间的映射关系。正则化参数通过训练集内的广义交叉验证确定。模型评估采用10折交叉验证。在测试阶段,解码器会为一对未见过的测试词汇预测其词嵌入向量,然后通过计算预测向量与真实向量之间的皮尔逊相关性来进行配对匹配。若正确配对的相似度之和高于错误配对,则计为正确一次,最终报告的平均准确率反映了模型区分不同大脑激活模式对应不同词汇的能力。为了探究词类影响,研究采用了特殊的评估方法:从整个数据集中随机选取两个属于(或介于)某个词类的样本作为测试集,而使用其余178个样本进行训练,重复多次取平均准确率。
第五步,信息体素分析。在得到解码模型后,研究进一步分析了哪些大脑区域(体素)对于解码特定类型的词汇、特定范式或特定词嵌入模型最为重要。这通过考察岭回归模型的权重来实现,高权重的体素被视为对解码任务具有高信息量。研究将最具信息量的体素映射到12个已知的高阶认知脑网络(如语言网络、视觉网络、默认模式网络等)中,以比较不同实验条件下神经激活模式的异同。
研究的核心结果分三个方面详细展开:
关于词类影响:研究发现,不同词类的最佳解码模型不同。具体而言,名词的总体解码准确率最高,动词次之,形容词最低且个体间差异最大。在区分具体名词和具体动词时,解码性能明显高于区分抽象名词和抽象动词,这从计算角度支持了“大脑激活由语义驱动而非词性驱动”的理论。神经机制分析表明,与具体名词相比,抽象名词更多地依赖与语言相关的脑网络和默认模式网络,这与“双重编码理论”相符。具体动词的解码效果在所有词类中最好,且其激活模式在所有脑网络中都比具体名词更具区分度。
关于刺激呈现范式影响:三种范式的解码准确率存在显著差异。图片范式准确率最高,句子范式次之,词云范式最低。图片范式的稳定性也最好(被试间标准差最小)。神经基础分析清晰地揭示了原因:图片范式激活了更多与视觉处理相关的脑区(如枕叶、梭状回),而句子和词云范式则激活了更多与语言和语义处理相关的脑区(如颞叶、额叶以及语言网络)。VGG视觉模型在图片范式上表现尤为突出,而ELMo上下文模型在句子和词云范式上表现更好,这进一步印证了不同范式主要激活不同信息处理通路。
关于词嵌入模型影响:在综合所有范式和词类的平均解码表现上,编码视觉信息的VGG模型表现最佳,其次是编码上下文信息的ELMo模型和编码文本信息的GloVe模型,而基于手工构建知识库的RWSGWN模型表现最差。通过组合不同模型(如将VGG与其他模型结合)形成的多模态或元词嵌入模型,其性能通常优于单个基础模型。信息体素分析显示,无论使用哪种词嵌入模型,视觉脑网络都贡献了大量信息体素,尤其是在使用VGG模型时,绝大部分重要体素都位于视觉相关网络。而GloVe、ELMo和Dependency模型则同时关联了视觉和更高认知功能相关的脑区。t-SNE可视化显示,基于文本的模型(如GloVe)能够较好地区分词性类别,而基于视觉的VGG模型则难以做到,表明不同模型捕获了词汇的不同属性。
本研究的结论是,为了实现最佳的fMRI词汇解码,需要根据具体条件选择合适的方法。对于由图片刺激引发的大脑活动数据,尤其是涉及具体动词的解码,VGG模型是最佳选择。而对于由句子或词云刺激引发的大脑活动,则应优先选择ELMo模型。这些发现为未来的“读心”技术提供了重要的方法学指导。此外,研究结果也从计算建模的角度为神经科学理论(如语义驱动理论、双重编码理论)提供了新的证据,展示了先进计算模型在研究人脑语言理解机制中的巨大价值。
本研究的亮点在于其系统性和全面性。首先,这是首个同时精细探究词汇类别、刺激呈现范式和多种词嵌入模型对fMRI词汇解码影响的综合性研究,填补了该领域的空白。其次,研究采用了当前最前沿、涵盖信息模态最广的八种词嵌入模型及其组合,评估体系非常完善。再次,研究不仅关注解码性能的“黑箱”结果,还深入分析了其背后的神经基础(信息体素分布),将计算模型的表现与大脑的生理活动联系了起来,实现了方法学验证与神经科学发现的统一。最后,研究提出的结论具有很强的实践指导意义,为不同应用场景下的神经解码技术方案选择提供了实证依据。