分享自:

语言的神经架构:整合建模汇聚于预测处理

期刊:Proceedings of the National Academy of Sciences of the United States of AmericaDOI:10.1073/pnas.2105646118

一项关于大脑如何理解语言的突破性研究:人工智能模型揭示了语言神经架构与预测处理的核心联系

本研究由麻省理工学院(MIT)和加州大学洛杉矶分校(UCLA)的科研团队主导,主要作者包括 Martin Schrimpf、Idan Asher Blank、Greta Tuckute、Carina Kauf、Eghbal A. Hosseini、Nancy Kanwisher、Joshua B. Tenenbaum 和 Evelina Fedorenko。该研究成果以题为《The neural architecture of language: integrative modeling converges on predictive processing》的论文形式,于2021年11月9日发表在《Proceedings of the National Academy of Sciences of the United States of America》期刊上。

一、 学术背景与研究目标

本研究属于认知神经科学、计算神经科学与自然语言处理(Natural Language Processing, NLP)的交叉领域。长期以来,理解人类语言——这一人类特有的高级认知能力背后的神经机制与计算原理,是科学界的核心挑战之一。虽然已知语言处理依赖于一个左半脑优势的前额-颞叶脑网络(语言网络),但其内部具体的计算算法,即大脑如何从连续的词汇流中实时构建并提取意义,仍不明确。

在视觉感知研究领域,一种被称为“逆向工程”或“整合性建模”的方法取得了革命性成功。该方法利用在视觉识别任务上表现接近人类水平的人工神经网络(Artificial Neural Networks, ANNs),特别是深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs),来解释灵长类动物腹侧视觉通路中神经元的活动。其关键逻辑在于进行大规模基准测试:在众多ANN模型与多个人类神经/行为数据集之间建立联系,通过考察模型性能跨数据集的一致性趋势,来揭示模型哪些特性使其与大脑功能相似,从而深入理解大脑的计算机制。研究表明,那些在物体识别任务上表现更好的DCNN模型,也能更好地预测大脑视觉皮层的神经活动和人类的行为表现。

受此启发,本研究团队旨在将这一强大的整合性建模范式应用于更高层次的认知领域——人类语言理解。近年来,NLP领域也出现了革命性进展,尤其是基于“Transformer”架构的ANN语言模型(如BERT, GPT系列)在各类任务上取得了惊人成功。尽管这些模型并非为模拟大脑而设计,且传统上因其缺乏显式符号表征而受到认知科学家的质疑,但它们已展现出近似某些符号计算的能力。这引发了一个激动人心的可能性:当前最先进的ANN语言模型,或许能够为大脑的语言处理机制提供一个计算上充分的近似模型。

因此,本研究的目标是,首次在语言领域进行一次系统性、大规模的整合性建模研究。其核心目的不仅仅是找出哪个单一模型最能拟合人类数据,更是要探究模型之间的哪些性能差异维度(如架构类型、训练目标、任务表现)与拟合人类神经及行为数据的能力相关。通过这种方式,研究旨在超越单一模型的局限性,发现连接大脑、行为与计算模型的稳健规律,从而揭示塑造人类语言理解的核心计算原理。

二、 详细工作流程

本研究的工作流程严谨而系统,主要包括以下几个核心步骤:收集与准备多模态人类数据集、选取和运行多样化的ANN语言模型、建立模型表征与人类数据之间的量化比较方法,并进行跨维度的相关性分析。

1. 人类神经与行为数据准备: 研究使用了三个独立的神经成像数据集和一套行为数据集,以确保结果的鲁棒性和普适性。 * 神经数据集1 (Pereira2018): 功能性磁共振成像(fMRI)数据。参与者阅读涵盖不同主题的短段落(逐句呈现)。该数据集内部信噪比较高,每个句子在每位参与者中重复呈现三次,是分析的重点数据集(包含两个实验,共10名独特参与者)。 * 神经数据集2 (Fedorenko2016): 皮层脑电图(Electrocorticography, ECoG)数据。参与者在颅内电极记录下阅读语义和句法多样的句子(逐词呈现)。数据来自5名参与者,具有高时空分辨率。 * 神经数据集3 (Blank2014): fMRI数据。参与者聆听约5分钟长的自然主义故事。数据来自5名参与者,反映了在更连续、自然语言输入下的神经活动。 * 行为数据集 (Futrell2018): 自定步速阅读时间数据。来自179名在线参与者阅读自然故事时的逐词阅读时间,这是衡量实时语言理解难度的经典行为指标。 一个关键的统一处理是:对于所有神经数据集,研究者均从功能上定义的“语言选择性”脑区(通过对比阅读句子与阅读非词序列的独立定位任务识别)提取神经响应。这确保了他们建模的是专门负责高水平语言处理的脑网络活动。

2. 计算模型选取: 研究系统地测试了43种不同类型的、最先进的ANN语言模型,全面涵盖了当时的主流架构: * 词嵌入模型: 如GloVe,提供静态的词汇向量表示。 * 循环神经网络: 如LM_1b, Skip-Thoughts,能够处理序列信息。 * 基于注意力机制的Transformer模型: 这是研究的重点,包括: * 双向注意力模型: 如BERT、RoBERTa、XLM等,训练时可以利用词汇的上下文信息(前后文)。 * 单向注意力模型: 如GPT、GPT-2系列,训练目标是根据上文预测下一个词,其处理信息的方式(仅前文)被认为更接近人类在线理解的过程。

3. 模型-大脑/行为比对方法: 这是研究的核心技术环节。其核心思想是将ANN模型视为一个“虚拟被试”,向其输入与人类被试完全相同的语言刺激(句子、故事),并“记录”其内部不同层(layer)的神经元激活模式。 * 预测性度量: 对于每个模型每一层的激活表征,研究者使用80%的刺激材料,训练一个线性回归模型,将模型激活映射到对应的人类神经响应(每个fMRI体素、ECoG电极或脑区的活动)或行为数据(阅读时间)。然后,用训练好的回归模型对剩余20%的刺激材料进行预测,计算预测值与真实人类数据之间的皮尔逊相关系数。这个过程交叉验证五次。最终得分通过除以数据集的“噪声天花板”(即理论上可预测的最大信噪比)进行归一化,得到“大脑得分”或“行为得分”(0-100%)。 * 表征相似性分析: 作为补充验证,研究还使用了无需拟合的表征差异性矩阵(Representational Dissimilarity Matrices, RDM)方法来比较模型内部表征与大脑活动模式之间的相似性,结果与预测性度量一致。

4. 模型计算任务性能评估: 为了探究何种计算目标驱动了模型与大脑的相似性,研究者评估了所有模型在一系列NLP任务上的表现。 * 核心预测任务: 下一个词预测任务。在WikiText-2数据集上,评估模型根据上文预测下一个词的能力(报告困惑度,perplexity)。 * 其他语言理解任务: 使用GLUE基准测试套件,评估模型在语法性判断、句子相似性判断、文本蕴涵等多种下游任务上的表现(仅训练线性读出层,保持模型核心权重不变)。

5. 数据分析与关联检验: 研究者计算了所有43个模型在上述大脑得分、行为得分、下一个词预测任务得分以及其他GLUE任务得分之间的相关性。通过统计检验(如自举法,bootstrapping)来确定这些相关性的显著性和特异性。此外,他们还进行了一项关键的控制实验:测试了这些模型在权重随机初始化(未经训练) 状态下的“大脑得分”,以分离模型架构本身与训练过程对大脑相似性的贡献。

三、 主要研究结果

本研究得出了四个紧密关联、相互支撑的核心发现,它们共同描绘了一幅清晰的图景。

1. 特定模型能够高精度预测人类大脑活动,且效果跨数据集一致。 * 预测精度高: 表现最佳的模型(特别是GPT-2 XL)对Pereira2018(fMRI句子)和Fedorenko2016(ECoG词汇)数据集的预测能力达到了噪声天花板的近100%。这远超过以往语言模型通常只能解释30-50%可预测信号的水平。对于Blank2014(fMRI故事)数据集,预测能力也显著高于随机水平。 * 架构与规模效应: Transformer模型(尤其是GPT-2)的表现普遍优于循环神经网络和简单的词嵌入模型。更大容量的模型通常表现更好。此外,模型中间层的表征对预测大脑活动最为有效,这可能对应着从词汇特征到高层语义整合的中间计算过程。 * 跨数据集泛化性: 一个模型在一个神经数据集上的大脑得分,能够显著预测它在其他数据集上的得分(例如,Pereira2018与Fedorenko2016的得分相关系数 r = 0.50)。这排除了模型只是捕捉了某个数据集特异性的噪音的可能性,证明了模型内部语言表征的普遍性。

2. 下一个词预测任务表现特异性地关联于大脑与行为得分。 这是本研究最关键的发现之一,为“预测处理”假说提供了强有力的计算证据。 * 特异性关联: 在所有43个模型中,模型在下一个词预测任务上的表现(困惑度越低越好)与其大脑得分(r = 0.44)和行为得分(阅读时间预测,r = 0.67)均呈现出显著的正相关。这意味着,一个模型越善于预测下一个词,它的内部表征就越像人脑在处理语言时的表征,也越能预测人类的阅读行为。 * 任务特异性: 相比之下,模型在GLUE套件的其他多种语言任务(如语法判断、语义相似性、蕴涵判断)上的表现,与大脑得分和行为得分均无显著相关性。这种关联模式上的差异在统计上非常可靠。 * 逻辑关系: 这一结果直接连接了计算目标(下一个词预测)、神经机制(语言网络活动)和外在行为(阅读困难度)。它表明,驱动最先进AI语言模型成功的计算目标——构建语言序列的联合概率模型以进行预测,很可能也正是人脑语言系统在进化与发育中被优化的核心计算目标

3. 大脑得分与行为得分高度相关。 模型预测神经活动的能力与其预测人类行为(阅读时间)的能力紧密相连(r = 0.65)。这表明,对神经数据拟合得更好的模型,同时也能更好地解释行为数据,反之亦然。这为实现一个能够统一解释神经活动与行为的、计算上精确的语言处理理论奠定了坚实基础。

4. 模型架构是模型-大脑相似性的重要贡献者。 * 未经训练的模型仍有预测力: 一个引人注目的发现是,即使使用随机初始化的权重(未经任何语言数据训练),仅凭模型架构本身(配合一个训练过的线性读出层),许多模型(特别是GPT-2 XL)就已经能够以远高于随机水平的精度预测大脑活动(平均可达训练后模型得分的约51%)。训练平均能将大脑得分再提升53%。 * 架构先验的重要性: 未经训练的模型的得分与训练后模型的得分高度相关(r = 0.74)。这意味着,一个拥有“好架构”的模型,即便在训练前,其内部结构所产生的表征空间就已在一定程度上与大脑的语言表征空间对齐。这暗示着,Transformer等架构所体现的多层次、基于注意力的上下文整合机制,可能本身就蕴含了适合处理自然语言信号的通用计算原理。这一发现与近期在视觉和语音模型中的观察一致。

四、 结论与意义

本研究的主要结论是:基于Transformer架构、以前向预测(下一个词预测)为目标训练的人工神经网络,为人类语言理解的大脑机制提供了一个迄今为止最接近的计算模型。 整合性建模的结果强有力地支持了“预测处理”是人类语言理解根本性计算原理的经典假说。

科学价值: 1. 提供了计算上明确的证据: 研究不仅重申了“预测”在语言处理中的重要性,更通过端到端的ANN模型,定量地展示了预测性计算如何具体地映射到大脑的神经表征和人类的行为输出,将假说提升到了可计算、可检验的模型层面。 2. 建立了新的研究范式: 本研究成功地将视觉研究领域的整合性建模范式移植到高级认知领域,为研究语言乃至其他思维过程提供了一个可复制的模板。它展示了如何利用大规模基准测试和模型比较,从众多不完美的模型中抽取出关于大脑计算的关键见解。 3. 指明了模型改进方向: 研究发现,优化下一个词预测任务是使模型更“类脑”的关键。这为未来构建更具神经合理性的计算模型提供了明确指导。同时,架构重要性的发现提示,探索更贴近生物约束的神经网络架构可能是一个富有前景的方向。 4. 促进了跨领域对话: 这项研究在人工智能(追求任务性能)与认知神经科学(追求机制解释)之间架起了一座桥梁。它表明,尽管目标不同,但AI领域在追求更强大语言模型的过程中,可能无意间正在逼近生物大脑的解决方案。

五、 研究亮点

  1. 开创性的整合规模: 首次在语言神经科学中,同时系统性地评估了43个最先进的ANN模型在多个神经成像模态(fMRI, ECoG)和行为数据集上的表现,进行了真正意义上的大规模基准测试。
  2. 预测精度达到天花板: 最佳模型对某些神经数据集的解释力达到了噪声天花板,这是前所未有的,表明当前最好的AI模型已能近乎完美地模拟语言网络在特定任务下的平均响应模式。
  3. 揭示了预测处理的核心作用: 通过严谨的相关性分析,清晰、特异性地将下一个词预测任务与神经、行为拟合度联系起来,为预测处理假说提供了迄今为止最直接、最有力的计算建模支持。
  4. 发现了架构的关键贡献: 关于未经训练的模型仍具预测力的发现,挑战了“仅通过训练学习语言统计规律就能解释大脑相似性”的简单观点,强调神经网络架构本身所嵌入的归纳偏置对于形成类脑表征至关重要。
  5. 识别了最“类脑”的现有模型: 研究明确指出了GPT-2(特别是其单向、前向预测的架构)在现有模型中具有最高的神经和行为预测能力,为后续更精细的模型剖析和机制研究提供了具体的目标。

六、 其他有价值的内容

研究在讨论部分还提出了未来多个激动人心的方向,包括:对最佳模型(如GPT-2)进行内部拆解以理解其工作机制;收集更多样化、更具挑战性的语言刺激和更高信噪比的神经数据;尝试将语言模型与包含世界知识和常识推理的模型相结合,以捕捉更深层的语义理解;以及建立更精细的模型组件-大脑解剖区域映射,从而揭示语言网络内部的功能分工。这些展望勾勒出了一个通过“整合性建模”循环不断深化对人类语言理解认识的长期研究计划。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com