用于概念表示与语义特征注释的fMRI数据集

分享自：
用于概念表示与语义特征注释的fMRI数据集

信息科学
神经科学与心理学
生命科学
计算机科学
人工智能
期刊:scientific dataDOI:10.1038/s41597-022-01840-2
【点击此处】阅读全文、收藏及针对性提问
概念表征的神经基础：一个结合功能磁共振成像与语义特征标注的开源数据集研究
本研究由中国科学院自动化研究所模式识别国家重点实验室的王绍南（Shaonan Wang）、张云昊、张霄汉、孙敬园，中国科学院心理研究所行为科学重点实验室的林楠，以及中国科学院自动化研究所的张佳俊、宗成庆共同完成。研究成果以数据描述文章的形式发表于Nature旗下期刊《Scientific Data》，于2022年11月24日正式在线发布。
一、 学术背景与研究目标
在认知神经科学领域，概念如何在大脑语义系统中被表征是一个核心且未解的科学问题。概念作为人类认知的基本单元，是从感性认识上升到理性知识过程中，对事物共同本质特征的抽象与概括。理解其神经表征机制，对于揭示人类知识组织、语言理解和思维交流的底层原理至关重要。
尽管先前利用神经影像技术（如功能磁共振成像，fMRI）的研究已经识别出一些与特定类型概念处理相关的大脑区域，例如颞叶和顶叶下部与多种感知处理相关，内侧颞叶与动物、物体或场景的表征有关，但这些研究存在显著的局限性。首先，它们大多集中于具体概念（如“苹果”、“跑”），而对抽象概念（如“安全”、“自由”）的神经表征探索不足。其次，为了保证fMRI图像质量，实验通常需要多次重复呈现刺激，这极大地限制了在一个实验中能够使用的不同概念刺激的数量。因此，以往研究通常仅使用数量较少、语义范围受限的刺激材料，其研究结论能否推广到更广泛、更丰富的概念集合上，仍是一个悬而未决的问题。
为了突破这些限制，本研究旨在创建一个大规模、高质量、且富含语义标注的神经影像数据集，以支持对概念神经表征进行全面和细粒度的探索。具体目标包括：1) 收集参与者思考大量（672个）涵盖广阔语义空间的概念（包括具体和抽象概念）时的大脑fMRI数据；2) 基于概念表征的成分理论，通过众包标注的方式，为这672个概念收集涵盖感官、运动、空间、时间、情感、社交和认知体验的54个语义特征评分；3) 提供严格的数据质量验证，确保其可用于可靠的神经科学研究；4) 公开共享此数据集及配套代码，为认知神经科学、计算语言学、人工智能等跨学科领域的研究者提供一个宝贵资源。
二、 研究详细流程
本研究包含四个主要流程：刺激材料选取与准备、功能磁共振成像数据采集、语义特征众包标注，以及数据的预处理与验证。
1. 刺激材料选取与准备： 刺激选取的核心挑战在于确保其语义空间的广泛覆盖性。研究团队从哈尔滨工业大学发布的《同义词词林扩展版》中选取了672个中文词语。该词库包含77,343个词语，覆盖现代汉语词汇的主要部分。其结构类似于WordNet，词语按树状结构组织，具有层次化的语义分类编码。为了无偏地覆盖所有语义类别，研究者从词林的中层语义类别开始，在每个语义条目中选择词频最高的词语，最终得到672个词。这些词语涵盖了名词、动词、形容词等不同词性，以及从具体到抽象的各种概念。 每个词语在实验中配有6张不同的相关图片，这些图片通过百度搜索引擎手动筛选获得，旨在帮助参与者在扫描时更好地聚焦于概念本身。
2. 功能磁共振成像数据采集： * 参与者：共招募18名参与者（8名女性，平均年龄23.83岁±2.4岁），其中11人完成了全部扫描环节（7人因未完成所有访视被排除）。所有参与者均为汉语母语者，视力正常或矫正后正常。 * 实验程序：在fMRI扫描过程中，参与者阅读屏幕上呈现的词语（伴随相关图片），并认真思考该词语所代表的概念。每个刺激呈现3秒，随后是2秒的注视点。672个词语被分为若干组，每个参与者会看到每个词语的6次重复（每次伴随不同的图片）。fMRI记录被分为多次访视完成。 * 数据获取：在中国科学院心理研究所磁共振成像研究中心的3T GE Discovery MR750扫描仪上采集数据。采集了血氧水平依赖功能成像数据（BOLD）和高分辨率的T1加权结构像数据。功能像采集参数包括：重复时间（TR）= 2000毫秒，回波时间（TE）= 30毫秒，体素分辨率3.0毫米各向同性。
3. 语义特征众包标注： * 参与者与流程：招募126名参与者（72名女性，平均年龄22.72岁±2.13岁）在线完成语义特征评分问卷。语义特征列表基于Binder等人（2016年）总结的神经生物学发现，包含视觉、躯体感觉、听觉、味觉、嗅觉、运动、空间、时间、因果、社交、认知、情绪、驱力和注意共14个领域下的54个属性（如“视觉-颜色”、“运动-腿部运动”）。 * 标注与质量控制：参与者对每个概念的每个特征在1-7分量表上进行评分。为确保数据质量，每个特征的评分需收集30份有效问卷。采用可靠性分析，若某参与者的评分与其他参与者平均评分的相关性低于0.5，则其数据被排除并补充新参与者，直至每个特征获得30份有效评分。最终计算出的组内相关系数（ICC）全部高于0.9，表明评分具有极好的一致性。
4. 数据预处理、注释与技术验证： * fMRI预处理：使用高度自动化的fMRIprep软件对原始数据进行预处理。流程包括：结构像的颅骨剥离、脑组织分割、表面重建，以及功能像的切片时间校正、头动校正、与结构像的配准，以及空间标准化到标准模板空间。同时计算了头动参数、时间信噪比等衍生指标。 * 丰富的注释信息：除了神经影像数据，研究团队提供了关于概念刺激的丰富注释信息，包括：1) 上述54维语义特征评分；2) 多种词向量：包括静态词向量（FastText， GloVe）和上下文相关词向量（BERT， ERNIE， GPT-2， ELECTRA）；3) 视觉特征向量：使用ResNet， DenseNet， Vision Transformer， BEiT等深度学习模型从6张配图中提取并平均得到的图像嵌入向量；4) 词语类别和词性标注。 * 技术验证：为评估数据质量，进行了多项分析： * 头动分析：计算了帧间位移。所有11名参与者的平均帧间位移均小于0.2毫米，表明头动控制良好。 * 空间平滑度：评估了预处理后数据固有的空间平滑度，结果显示各参与者间因使用相同扫描仪和参数而具有可比性。 * 时间信噪比：计算了每个参与者的时间信噪比，组平均值为57.89，与或优于现有数据集，表明数据信号质量高。 * 被试间相关性：计算了不同参与者对相同刺激大脑反应的一致性。结果显示，在传统上与语言和视觉处理相关的颞叶和枕叶区域具有较高的ISC值，印证了数据对刺激反应的可靠性。 * 神经解码验证：通过训练岭回归模型，尝试从大脑激活模式中预测词语的词向量表示。所有解码模型在所有参与者上都取得了显著高于随机水平的分类准确率，这直接证明了本fMRI数据中编码了丰富的语义信息，验证了数据的有效性。
三、 主要研究结果
本研究的主要成果并非一个单一的发现性结论，而是成功创建并验证了一个高质量、多模态的科研数据集。上述详细流程中的每一步都产生了关键的结果模块，共同构成了最终的数据产品。
刺激集结果：成功构建了一个包含672个中文概念（词语）的刺激集，每个概念配有6张相关图片。该刺激集源自具有层次化语义结构的权威词库，确保了其在语义空间上的广泛代表性和无偏性，覆盖了具体与抽象概念。
fMRI数据集结果：获得了11名健康参与者在思考这672个概念时的高质量全脑fMRI数据。严格的质量控制（头动小、时间信噪比高、被试间相关性强）表明，该数据达到了进行可靠神经科学分析的标准。神经解码实验的成功进一步证实，这些大脑活动数据中确实包含可用于区分不同概念的语义信息，这是数据集可用性的核心证据。
语义特征标注结果：获得了每个概念在54个语义特征维度上的众包评分矩阵。极高的组内相关系数保证了这些标注数据的可靠性和一致性。这些特征评分将抽象的概念语义分解为可量化的、与感知运动及抽象经验相关的成分，为从“成分语义学”角度研究大脑概念表征提供了关键桥梁。
多模态注释结果：除了语义特征，还提供了同一概念集的多种计算语言学表征（多种词向量、图像向量）和语言学标注（词性、类别）。这使得该数据集成为一个连接神经活动、人类主观语义评分和计算模型语义表征的宝贵枢纽。
数据开源结果：所有数据（原始fMRI数据、预处理后数据、刺激材料、语义标注、词向量等）均按照脑成像数据结构标准组织，并完整公开在OpenNeuro平台。同时，实验呈现代码、预处理脚本和技术验证代码也已开源。
这些结果之间具有紧密的逻辑关系：高质量的fMRI数据是研究神经表征的基础；广泛覆盖的刺激集是研究普适性规律的前提；精细的语义特征标注是将神经活动与具体语义内容联系起来的解释框架；而多模态的计算表征则为采用机器学习方法进行跨模态分析（如神经解码、编码）提供了丰富的特征空间。 最终，开源共享使得这些结果能够被科学共同体广泛使用，从而产生远超单个团队所能实现的科学价值。
四、 研究结论与意义
本研究创建并发布了名为“CRSF”的功能磁共振成像数据集。该数据集的独特价值在于其规模性（672个概念）、语义覆盖的广泛性（同时包含具体和抽象概念）、丰富的语义标注（54个成分语义特征）以及严格的质量验证。它不仅仅是一组脑成像数据，更是一个集成了神经活动、人类语义评分和计算模型表征的多模态资源。
其科学价值体现在：1) 为概念表征的神经机制研究提供了前所未有的数据基础，使研究者能够超越小规模、特定类别刺激的限制，探索概念语义空间在大脑中的系统性映射规律。2) 特别有利于研究抽象概念的神经表征，这是一个长期以来因方法学限制而进展缓慢的领域。3) 支持对“成分语义理论”进行大规模的神经验证，通过将概念分解为感官、运动、情感、社交等基本特征，可以探究这些特征如何在大脑不同区域中被编码和组合。4) 促进跨学科研究：为计算语言学和人工智能领域的研究者提供了将语言模型、视觉模型与真实人脑数据进行对比和关联的绝佳机会，推动对人工智能模型“理解”能力的神经科学性评估，以及受神经科学启发的新型AI模型开发。
五、 研究亮点
数据规模与语义广度：相比以往大多数概念表征fMRI研究使用的刺激数量（通常几十到一百多个），本研究一次性涵盖了672个概念，并有意涵盖了抽象概念，极大扩展了研究范围。
成分语义特征的系统标注：创新性地为大规模概念集收集了基于成分语义理论的详细特征评分，将主观语义经验转化为可计算、可分析的量化数据，为解释神经活动模式提供了强有力的语义维度。
严格且全面的质量控制：不仅提供了标准的影像学质量指标（头动、信噪比），还通过神经解码的成功和被试间相关分析，从“数据是否包含有效语义信息”和“不同大脑对相同刺激反应是否一致”这两个功能层面验证了数据的有效性，这是该数据集高可信度的关键。
多模态与开源共享：数据集集成了原始脑影像、预处理数据、语义标注、多种词向量和图像向量，构成了一个多模态对齐的资源库。完全开源共享的姿态遵循了开放科学原则，最大化了其科学影响力。
研究流程的规范性：从刺激的标准化选取（基于权威词库），到fMRI实验的严谨设计（多重复、多访视），再到众包标注的严格质控，整个研究流程体现了高度的规范性和可重复性。
六、 其他有价值内容
本研究还展示了如何利用该数据集进行初步的探索性分析，例如在技术验证部分进行的神经解码实验。这为其他研究者提供了方法论示例。此外，论文详细描述了数据的组织结构和获取方式，并提供了完整的参考文献和代码链接，极大降低了其他研究者使用该数据集的门槛。作者团队来自模式识别、自然语言处理和认知神经科学背景，这种跨学科合作本身也是高质量数据产出的重要保障，并为未来利用该数据进行跨领域研究树立了典范。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问