分享自:

用于研究大脑语言处理的同步多模态神经影像数据集

期刊:scientific dataDOI:10.1038/s41597-022-01708-5

一项用于研究大脑语言处理的多模态同步神经影像数据集:SMN4Lang

本文旨在向您介绍一项近期发表的、具有重要意义的研究成果。该研究由中国科学院自动化研究所模式识别国家重点实验室及中国科学院大学人工智能学院的Shaonan Wang、Xiaohan Zhang、Jiajun Zhang和Chengqing Zong共同完成,并以数据描述的形式发表于《Scientific Data》期刊(2022年,第9卷,第590期)。这项研究并非直接报告一个新的实验发现,而是创建并发布了一个名为“SMN4Lang”的、高质量、多模态同步神经影像数据集,旨在为脑科学与人工智能的交叉研究领域提供宝贵的基础资源。

一、学术背景与研究目标 理解人类大脑如何加工自然语言,是认知神经科学和人工智能领域的核心挑战之一。传统的语言研究范式通常采用严格控制、高度简化的实验设计,这虽然有助于分离特定的语言成分(如语义、句法),但也破坏了自然语言的复杂性和动态性,导致研究结论难以整合,无法形成对大脑语言处理全过程的整体认知。

近年来,一种使用自然主义刺激(如故事、电影)采集脑成像数据的研究范式开始兴起。相比传统范式,这种基于自然情境的方法更能反映日常语言理解的真实过程,为在整体水平上研究人脑提供了新视角。然而,推动这一领域发展的关键,在于大规模、高质量的神经影像数据。尽管已有一些公共数据集出现,但大多基于视听电影刺激,专门针对语言的仍属少数。更重要的是,语言理解是一个快速、动态的过程,需要兼具高空间分辨率和时间分辨率的脑成像技术来捕捉其时空动态特性。功能磁共振成像(fMRI)空间分辨率高,但时间分辨率低;脑磁图(MEG)和脑电图(EEG)时间分辨率高,但空间定位能力相对较弱。目前,能够从同一批被试同步收集fMRI和MEG/MEG数据,并采用相同自然语言材料(而非人工编制的句子)的数据集非常匮乏。这限制了我们探究特定语言特征在何时、何地被大脑编码的整合性研究。

为了解决上述问题,研究团队创建了“SMN4Lang”数据集。其核心目标在于提供一套同步多模态神经影像数据集,该数据集具备以下关键特征:1)多模态同步:包含来自同一批被试的fMRI(高空间分辨率)和MEG(高时间分辨率)数据,被试先后在fMRI和MEG设备中聆听相同的自然故事材料,数据在时间上是可对齐的。2)自然语言刺激:采用长达6小时、主题多样的中文故事作为刺激材料,更贴近真实语言环境。3)丰富的语言标注:为刺激材料提供了详尽的语言学标注,便于将复杂的语言特征与脑活动进行关联分析。4)全面的个体数据:除了任务态fMRI和MEG,还为每位被试提供了高分辨率结构像(T1, T2)、弥散MRI以及静息态fMRI数据,可用于研究个体大脑的结构与功能连接基础。

二、详细的工作流程与方法 该研究的工作流程严谨而系统,主要包括参与者招募、实验程序、数据采集、数据预处理和刺激材料标注五个核心环节。

1. 参与者与实验程序 研究招募了12名健康志愿者(8名男性,4名女性,年龄23-30岁),均为以汉语普通话为母语的右利手成年人。所有参与者均具有良好的数据采集习惯(如头部运动小、注意力集中)。实验分两次进行:首先进行fMRI扫描,至少一个月后进行MEG扫描,以尽量减少疲劳效应和记忆效应。每次扫描包含聆听故事任务。

实验过程中,参与者躺在扫描仪内聆听故事音频。每个故事播放结束后,屏幕会呈现两道关于故事内容的四选一选择题,参与者需按键回答。这一设计确保了参与者在扫描过程中保持注意力集中并理解故事内容。行为学结果显示,参与者在fMRI和MEG实验中的平均答题正确率分别高达91.18%和91.81%,证明了数据的有效性。

2. 刺激材料 刺激材料选自“人民日报名家谈”的60个音频故事,每个故事时长4-7分钟,涵盖了教育、文化等多种主题。所有音频由同一男性播音员录制,并进行了标准化处理。对应的文本经过人工校对,确保与音频内容精确对齐。整个语料库共包含52,269个词,词汇量达9,153个,为研究大规模、多样化的语言表征提供了基础。

3. 数据采集 所有神经影像数据在北京大学的磁共振成像研究中心采集。 * MRI数据:使用西门子Prisma 3T扫描仪采集。包括:高分辨率T1和T2加权结构像(各向同性分辨率0.8 mm)、弥散MRI(使用多波段EPI序列,包含多个扩散梯度方向)以及任务态和静息态功能磁共振成像(fMRI,使用梯度回波EPI序列,TR=710 ms)。 * MEG数据:使用Elekta Neuromag Triux 306通道全头型MEG系统采集。采样频率为1000 Hz,并记录了眼电信号用于后续去除伪迹。

4. 数据预处理 为了保证数据质量的一致性和可比性,研究团队采用了标准化的预处理流程。 * MRI数据预处理:使用了人脑连接组计划(Human Connectome Project, HCP)的最小化预处理流程。该流程在Linux服务器集群上运行,包括:对T1/T2像进行梯度畸变校正、颅骨剥离、配准到标准空间(如MNI空间)、生成皮层表面文件;对功能像进行头动校正、空间畸变校正、配准到结构空间、归一化等处理。最终,功能数据被转换到CIFTI标准空间(结合皮层表面和皮下核团体积信息),便于后续分析。 * MEG数据预处理:在Ubuntu系统上使用MNE等工具进行。首先使用时间信号空间分离法进行磁干扰抑制,并剔除坏通道。随后,应用独立成分分析去除眼动和心跳等生理伪迹。最后,对数据进行了0.1-40 Hz的带通滤波。研究还检测了听觉呈现的实际时间延迟(39.5 ms),并在分析中予以考虑。

5. 丰富的语言学标注 这是该数据集的一大特色。为了将复杂的语言特征与高维度的神经信号联系起来,研究团队为所有刺激材料提供了多层次、多角度的语言学标注: * 语音-文本对齐:使用基于Kaldi的预训练GMM-HMM模型,自动对齐音频与文本,精确提供了每个汉字和词语在音频中的起始和结束时间。 * 词频统计:基于新华新闻语料库,计算了每个汉字和词语的词频,并进行对数转换。 * 文本嵌入向量:提供了静态和动态两种类型的词/字向量表征。 * 静态嵌入:使用Word2Vec模型(CBOW架构)在新华语料上训练,生成了100维和300维的字/词向量。 * 动态嵌入:使用BERT(中文基础版,12层)和GPT-2(中文版,25层)模型,提取了所有网络层输出的上下文相关嵌入向量(BERT为768维,GPT-2为1024维)。这些深层次的语义、句法信息对于构建大脑编码模型至关重要。 * 句法标注:由语言学专家手动标注了所有故事文本的句法结构。 * 词性标注:遵循北京大学中文树库标准。 * 句法树结构:手动标注了成分句法树,并利用Stanford CoreNLP工具将其转换为依存句法树,确保了两种句法表征的一致性。

三、数据集的构成与质量控制 整个数据集遵循BIDS标准组织,并在OpenNeuro平台上公开发布。数据目录结构清晰,包括原始数据、预处理后的数据、刺激材料、代码以及丰富的语言学标注文件。

为了验证数据质量,研究团队进行了多项严格的技术验证: * fMRI数据质量评估: 1. 头动分析:计算了帧间位移,结果显示所有参与者在大多数扫描序列中头部运动微小(平均FD < 0.2 mm),数据质量高。 2. 时间信噪比:计算了每个体素的TSNR,结果显示大脑大部分区域具有较高的信噪比。 3. 被试间相关:计算了ISC,发现与语言处理相关的颞叶和额叶区域ISC值较高,表明不同被试对相同故事的大脑反应具有一致性。 4. 神经编码分析:使用BERT第7层的词向量作为语言特征,训练岭回归模型来预测大脑活动。结果发现,在语言相关脑区(如颞叶、顶叶、额叶)的预测准确率显著高于其他区域,这直接证明了该fMRI数据中确实编码了丰富的语言信息。 * MEG数据质量评估: 1. 被试间相关:计算了不同频段(Delta, Theta, Alpha, Beta)的ISC。结果显示,在Delta和Theta频段ISC较高,且预处理有效降低了眼动伪迹相关的ISC。 2. 神经锁相分析:使用声学包络训练编码模型来预测MEG信号。结果显示,在低频Delta波段预测能力最强,且高预测能力的传感器主要位于靠近听觉皮层的颞叶区域。这与先前关于语音追踪的研究一致,验证了MEG数据的质量。

四、研究结论与重要意义 该研究成功构建并发布了首个针对汉语、集成了同步高空间分辨率(fMRI)和高时间分辨率(MEG)测量的多模态自然语言神经影像数据集——SMN4Lang。数据集不仅包含任务态脑活动数据,还提供了全面的个体结构与静息态数据,以及极其丰富的、多层次的语言学标注。

其科学价值与应用前景主要体现在以下几个方面: 1. 推动脑语言机制研究:该数据集为解决语言处理中的“何时”与“何处”问题提供了独一无二的资源。研究者可以结合fMRI的精确空间定位和MEG的毫秒级时间分辨率,深入探究不同语言特征(如语音、词汇、句法、语义)在大脑中的动态加工时空轨迹。 2. 服务于计算模型评估与启发:数据集涵盖大量词汇和多样主题,可作为一个“人脑基准测试”,用于评估各类计算语言模型(如BERT, GPT)的表征能力,判断其内部表征是否与人类大脑神经活动相似。反过来,这些对比研究也可以启发改进现有的人工智能模型架构,使其更接近人脑的高效处理机制。 3. 促进多模态数据融合方法学发展:如何处理、对齐和分析来自不同模态、不同时空尺度的神经数据,是当前神经信息学的一大挑战。该数据集为开发新的多模态数据融合算法提供了标准的测试平台。 4. 支持个体差异与脑网络研究:提供的个体T1, T2, 弥散MRI和静息态fMRI数据,使得研究者可以探讨语言功能背后的个体化脑结构与功能连接基础,连接宏观脑区活动与微观白质纤维束。

五、研究的亮点与特色 1. 首创性与稀缺性:这是首个公开发布的、针对汉语的、同步收集fMRI和MEG的自然语言理解数据集,填补了该领域的关键空白。 2. 数据的高质量与完整性:从参与者筛选、实验控制、标准化采集到严格的预处理和质量验证,确保了数据的高信噪比和可靠性。提供的不仅仅是原始信号,还有经过HCP标准流程预处理的、可直接用于高级分析的数据产品。 3. 标注的深度与广度:所提供的语言学标注远超一般数据集,不仅包括基础的词对齐和词频,还提供了来自深度预训练模型的多层动态语义/句法向量,以及专家标注的句法树结构,极大地方便了研究者构建精细的语言特征-神经响应映射模型。 4. 遵循社区标准与开放共享:数据严格按照BIDS标准组织,并在OpenNeuro平台开放获取,同时提供了完整的预处理和质量验证代码,保证了研究的可重复性和数据的易用性,有利于推动领域的开放科学协作。

总而言之,SMN4Lang数据集是一个设计精良、质量上乘、标注丰富的基础性科研资源。它为神经科学家、语言学家和人工智能研究者搭建了一座桥梁,有望在揭示人脑语言奥秘和推动类脑智能发展的道路上发挥重要作用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com