概念表征的神经基础:一个结合功能磁共振成像与语义特征标注的开源数据集研究
本研究由中国科学院自动化研究所模式识别国家重点实验室的王绍南(Shaonan Wang)、张云昊、张霄汉、孙敬园,中国科学院心理研究所行为科学重点实验室的林楠,以及中国科学院自动化研究所的张佳俊、宗成庆共同完成。研究成果以数据描述文章的形式发表于Nature旗下期刊《Scientific Data》,于2022年11月24日正式在线发布。
一、 学术背景与研究目标
在认知神经科学领域,概念如何在大脑语义系统中被表征是一个核心且未解的科学问题。概念作为人类认知的基本单元,是从感性认识上升到理性知识过程中,对事物共同本质特征的抽象与概括。理解其神经表征机制,对于揭示人类知识组织、语言理解和思维交流的底层原理至关重要。
尽管先前利用神经影像技术(如功能磁共振成像,fMRI)的研究已经识别出一些与特定类型概念处理相关的大脑区域,例如颞叶和顶叶下部与多种感知处理相关,内侧颞叶与动物、物体或场景的表征有关,但这些研究存在显著的局限性。首先,它们大多集中于具体概念(如“苹果”、“跑”),而对抽象概念(如“安全”、“自由”)的神经表征探索不足。其次,为了保证fMRI图像质量,实验通常需要多次重复呈现刺激,这极大地限制了在一个实验中能够使用的不同概念刺激的数量。因此,以往研究通常仅使用数量较少、语义范围受限的刺激材料,其研究结论能否推广到更广泛、更丰富的概念集合上,仍是一个悬而未决的问题。
为了突破这些限制,本研究旨在创建一个大规模、高质量、且富含语义标注的神经影像数据集,以支持对概念神经表征进行全面和细粒度的探索。具体目标包括:1) 收集参与者思考大量(672个)涵盖广阔语义空间的概念(包括具体和抽象概念)时的大脑fMRI数据;2) 基于概念表征的成分理论,通过众包标注的方式,为这672个概念收集涵盖感官、运动、空间、时间、情感、社交和认知体验的54个语义特征评分;3) 提供严格的数据质量验证,确保其可用于可靠的神经科学研究;4) 公开共享此数据集及配套代码,为认知神经科学、计算语言学、人工智能等跨学科领域的研究者提供一个宝贵资源。
二、 研究详细流程
本研究包含四个主要流程:刺激材料选取与准备、功能磁共振成像数据采集、语义特征众包标注,以及数据的预处理与验证。
1. 刺激材料选取与准备: 刺激选取的核心挑战在于确保其语义空间的广泛覆盖性。研究团队从哈尔滨工业大学发布的《同义词词林扩展版》中选取了672个中文词语。该词库包含77,343个词语,覆盖现代汉语词汇的主要部分。其结构类似于WordNet,词语按树状结构组织,具有层次化的语义分类编码。为了无偏地覆盖所有语义类别,研究者从词林的中层语义类别开始,在每个语义条目中选择词频最高的词语,最终得到672个词。这些词语涵盖了名词、动词、形容词等不同词性,以及从具体到抽象的各种概念。 每个词语在实验中配有6张不同的相关图片,这些图片通过百度搜索引擎手动筛选获得,旨在帮助参与者在扫描时更好地聚焦于概念本身。
2. 功能磁共振成像数据采集: * 参与者:共招募18名参与者(8名女性,平均年龄23.83岁±2.4岁),其中11人完成了全部扫描环节(7人因未完成所有访视被排除)。所有参与者均为汉语母语者,视力正常或矫正后正常。 * 实验程序:在fMRI扫描过程中,参与者阅读屏幕上呈现的词语(伴随相关图片),并认真思考该词语所代表的概念。每个刺激呈现3秒,随后是2秒的注视点。672个词语被分为若干组,每个参与者会看到每个词语的6次重复(每次伴随不同的图片)。fMRI记录被分为多次访视完成。 * 数据获取:在中国科学院心理研究所磁共振成像研究中心的3T GE Discovery MR750扫描仪上采集数据。采集了血氧水平依赖功能成像数据(BOLD)和高分辨率的T1加权结构像数据。功能像采集参数包括:重复时间(TR)= 2000毫秒,回波时间(TE)= 30毫秒,体素分辨率3.0毫米各向同性。
3. 语义特征众包标注: * 参与者与流程:招募126名参与者(72名女性,平均年龄22.72岁±2.13岁)在线完成语义特征评分问卷。语义特征列表基于Binder等人(2016年)总结的神经生物学发现,包含视觉、躯体感觉、听觉、味觉、嗅觉、运动、空间、时间、因果、社交、认知、情绪、驱力和注意共14个领域下的54个属性(如“视觉-颜色”、“运动-腿部运动”)。 * 标注与质量控制:参与者对每个概念的每个特征在1-7分量表上进行评分。为确保数据质量,每个特征的评分需收集30份有效问卷。采用可靠性分析,若某参与者的评分与其他参与者平均评分的相关性低于0.5,则其数据被排除并补充新参与者,直至每个特征获得30份有效评分。最终计算出的组内相关系数(ICC)全部高于0.9,表明评分具有极好的一致性。
4. 数据预处理、注释与技术验证: * fMRI预处理:使用高度自动化的fMRIprep软件对原始数据进行预处理。流程包括:结构像的颅骨剥离、脑组织分割、表面重建,以及功能像的切片时间校正、头动校正、与结构像的配准,以及空间标准化到标准模板空间。同时计算了头动参数、时间信噪比等衍生指标。 * 丰富的注释信息:除了神经影像数据,研究团队提供了关于概念刺激的丰富注释信息,包括:1) 上述54维语义特征评分;2) 多种词向量:包括静态词向量(FastText, GloVe)和上下文相关词向量(BERT, ERNIE, GPT-2, ELECTRA);3) 视觉特征向量:使用ResNet, DenseNet, Vision Transformer, BEiT等深度学习模型从6张配图中提取并平均得到的图像嵌入向量;4) 词语类别和词性标注。 * 技术验证:为评估数据质量,进行了多项分析: * 头动分析:计算了帧间位移。所有11名参与者的平均帧间位移均小于0.2毫米,表明头动控制良好。 * 空间平滑度:评估了预处理后数据固有的空间平滑度,结果显示各参与者间因使用相同扫描仪和参数而具有可比性。 * 时间信噪比:计算了每个参与者的时间信噪比,组平均值为57.89,与或优于现有数据集,表明数据信号质量高。 * 被试间相关性:计算了不同参与者对相同刺激大脑反应的一致性。结果显示,在传统上与语言和视觉处理相关的颞叶和枕叶区域具有较高的ISC值,印证了数据对刺激反应的可靠性。 * 神经解码验证:通过训练岭回归模型,尝试从大脑激活模式中预测词语的词向量表示。所有解码模型在所有参与者上都取得了显著高于随机水平的分类准确率,这直接证明了本fMRI数据中编码了丰富的语义信息,验证了数据的有效性。
三、 主要研究结果
本研究的主要成果并非一个单一的发现性结论,而是成功创建并验证了一个高质量、多模态的科研数据集。上述详细流程中的每一步都产生了关键的结果模块,共同构成了最终的数据产品。
这些结果之间具有紧密的逻辑关系:高质量的fMRI数据是研究神经表征的基础;广泛覆盖的刺激集是研究普适性规律的前提;精细的语义特征标注是将神经活动与具体语义内容联系起来的解释框架;而多模态的计算表征则为采用机器学习方法进行跨模态分析(如神经解码、编码)提供了丰富的特征空间。 最终,开源共享使得这些结果能够被科学共同体广泛使用,从而产生远超单个团队所能实现的科学价值。
四、 研究结论与意义
本研究创建并发布了名为“CRSF”的功能磁共振成像数据集。该数据集的独特价值在于其规模性(672个概念)、语义覆盖的广泛性(同时包含具体和抽象概念)、丰富的语义标注(54个成分语义特征)以及严格的质量验证。它不仅仅是一组脑成像数据,更是一个集成了神经活动、人类语义评分和计算模型表征的多模态资源。
其科学价值体现在:1) 为概念表征的神经机制研究提供了前所未有的数据基础,使研究者能够超越小规模、特定类别刺激的限制,探索概念语义空间在大脑中的系统性映射规律。2) 特别有利于研究抽象概念的神经表征,这是一个长期以来因方法学限制而进展缓慢的领域。3) 支持对“成分语义理论”进行大规模的神经验证,通过将概念分解为感官、运动、情感、社交等基本特征,可以探究这些特征如何在大脑不同区域中被编码和组合。4) 促进跨学科研究:为计算语言学和人工智能领域的研究者提供了将语言模型、视觉模型与真实人脑数据进行对比和关联的绝佳机会,推动对人工智能模型“理解”能力的神经科学性评估,以及受神经科学启发的新型AI模型开发。
五、 研究亮点
六、 其他有价值内容
本研究还展示了如何利用该数据集进行初步的探索性分析,例如在技术验证部分进行的神经解码实验。这为其他研究者提供了方法论示例。此外,论文详细描述了数据的组织结构和获取方式,并提供了完整的参考文献和代码链接,极大降低了其他研究者使用该数据集的门槛。作者团队来自模式识别、自然语言处理和认知神经科学背景,这种跨学科合作本身也是高质量数据产出的重要保障,并为未来利用该数据进行跨领域研究树立了典范。