发育合理数据量训练后人工神经网络语言模型预测人类语言脑反应的研究

分享自：
发育合理数据量训练后人工神经网络语言模型预测人类语言脑反应的研究

人工智能
信息科学
神经科学与心理学
计算机科学
生命科学
期刊:Neurobiology of LanguageDOI:10.1162/nol_a_00137
【点击此处】阅读全文、收藏及针对性提问
本研究的第一作者为Eghbal A. Hosseini，通讯作者为Eghbal A. Hosseini与Evelina Fedorenko。研究团队来自麻省理工学院大脑与认知科学系、麦戈文脑科学研究所、麻省理工学院Quest for Intelligence计划、瑞士洛桑联邦理工学院、斯坦福大学计算机科学系、纽约大学数据科学中心、语言学系和计算机科学系、麻省理工学院K. Lisa Yang综合计算神经科学（ICON）中心以及加州大学欧文分校语言科学系和哈佛大学言语与听力生物科学与技术项目。该研究于2024年发表在期刊 Neurobiology of Language 上（卷5，第1期，页码43-63），是一篇开放获取文章。
研究的学术背景本研究属于认知计算神经科学和语言神经科学的交叉领域。核心目标是探究人工神经网络（Artificial Neural Network， ANN）语言模型作为人类语言处理计算模型的合理性。近年来，基于Transformer架构的ANN语言模型（如GPT-2）在预测人类处理语言时的大脑活动（如功能磁共振成像， fMRI信号）和行为（如阅读时间）方面展现出强大的能力。然而，对这些模型的一个主要批评在于，它们的训练数据量（通常为数十亿词）远远超过了人类儿童在语言习得期间所接触的语言输入量（估计约为1亿词）。这种“数据鸿沟”引发了关于这些模型是否在发育上合理的争论，即它们是否依赖于不切实际的大量数据才能获得与人类大脑相似的语言表征。
因此，本研究旨在系统性地探讨一个核心问题：训练数据量是否是ANN语言模型能够预测人类大脑对句子反应的必要条件？ 具体而言，研究者试图验证，即使在接受了与人类儿童发育过程相匹配的、现实数量的训练数据后，这些模型是否依然能够有效地捕捉人脑的语言反应。这项研究有助于评估当前大型语言模型作为人类语言处理计算模型的生态效度，并回应关于其训练数据不现实的常见批评。
详细的研究流程本研究采用了两种互补的实验方法（实验1和实验2），并使用了统一的人类基准数据集和模型评估流程。
1. 人类基准数据集 * 主要基准（fMRI）： 采用来自Pereira等人（2018）实验2和实验3的fMRI数据（统称为Pereira2018基准）。参与者为18名（各实验9名）英语母语者。刺激材料为数百个句子，涵盖广泛的主题。fMRI数据采集时，参与者阅读句子，同时记录其血氧水平依赖（BOLD）信号。关键的是，分析仅限于通过一个独立的、经过充分验证的“语言定位器”任务在每个个体中识别出的语言反应性体素（voxel）。该定位器通过对比句子阅读和无意义词列表阅读，可靠地标记出支持语言理解的额颞叶脑网络。最终，为每位参与者获得了其在语言网络内大量体素对每个句子的BOLD反应估计值。 * 次要基准（行为）： 采用来自Futrell等人（2018）的自我步调阅读时间数据（Futrell2018基准）。179名参与者阅读故事，记录每个词的阅读时间作为理解难度的指标。
2. 人工神经网络模型 核心模型采用GPT-2风格的Transformer架构（单向注意力，12层，每层768个单元）。为了进行架构对比，在部分分析中使用了基于RoBERTa的MiniBERTa模型（双向注意力，参数规模与GPT-2相当）。
3. 实验1：控制训练数据量 * 目标： 评估在不同规模数据集上训练至收敛的模型，其预测人类大脑反应的能力如何。 * 流程： 1. 数据集构建： 创建了四个不同规模的训练数据集：100万词、1000万词、1亿词和10亿词。其中，1亿词被认为是发育上合理的数量，类似于儿童前10年接触的语言量。 2. 模型训练： 使用GPT-NeoX库分别在这四个数据集上训练GPT-2模型。每个模型训练至在验证集上达到最佳困惑度（Perplexity， PPL，衡量模型预测下一个词性能的指标）后停止。 3. 模型评估： 将每个训练好的模型（以及作为对照的未训练模型）在人类fMRI基准上进行测试。评估方法是：将模型对基准句子中最后一个词的内部表征（各层的激活值）与人类大脑语言网络中体素的BOLD反应通过线性回归模型进行映射。使用交叉验证，用训练集建立映射模型，用测试集预测BOLD反应，并通过计算预测值与真实值的皮尔逊相关系数来衡量预测性能。该性能值会被归一化（除以估计的噪声上限）。对阅读时间基准也采用类似的分析流程。
4. 实验2：追踪大规模数据集上的训练轨迹 * 目标： 模拟更接近人类持续接触新语言输入的场景，并检验实验1结果的稳健性。 * 流程： 1. 数据集与模型： 使用一个包含超过90亿标记（token）的大型语料库（OpenWebText）训练一个GPT-2模型。 2. 检查点选取： 在训练过程中，选取多个检查点（如0.1%、1%、10%、100%、1000%的训练步数，其中100%约等于完整遍历一次数据集）。 3. 模型评估： 在每个检查点冻结模型权重，并按照与实验1相同的方法，评估其在Pereira2018 fMRI基准上的预测性能。
5. 数据分析 * 主要分析： 比较不同训练条件（实验1的数据集大小，实验2的训练步数）下，模型在fMRI基准上达到的最佳预测性能。 * 探索性分析： 考察性能随模型层数的变化；检查模型困惑度与大脑预测性能之间的关系；分析训练数据中n-gram的多样性；检验刺激材料是否泄漏到训练集中（结果发现极少）。 * 统计分析： 使用独立样本t检验比较不同模型/检查点与完全训练模型（来自Schrimpf等人，2021）的性能差异，并进行邦费罗尼（Bonferroni）校正。
主要研究结果1. 实验1结果（控制数据量）： * 随着训练数据量的增加（从100万到10亿词），GPT-2模型预测人类fMRI反应的性能呈现一致性增长。 * 关键发现： 仅在1亿词（发育合理数量）上训练的模型，其预测性能已经与在10亿词上训练的模型以及文献中报道的完全训练的GPT-2模型性能没有显著差异。这表明，要获得能够高度预测人脑反应的语言表征，并不需要数量级上远超人类经验的数据。 * 相比之下，未训练的模型以及在100万和1000万词上训练的模型，其预测性能显著低于完全训练模型。 * 未训练模型的重要性： 研究发现，未训练模型的预测性能高度依赖于权重初始化方式。使用标准Hugging Face库初始化的模型表现高于基线，而将所有权重简单初始化为高斯分布（均值为0，标准差为0.02）的模型，其预测性能接近零。这说明，先前研究中未训练模型表现尚可的现象，可能源于开发过程中为优化学习效率而“固化”的特定初始权重配置，不能简单归因于模型架构本身。 * 模型层间差异： 早期和中间层（如4-9层）的性能在较小的数据量（100万词）上就接近峰值，而最后几层（10-12层）的性能则随着数据量的增加持续提升。这与视觉领域的研究一致，并提示后期层构建了更复杂的上下文相关表征，这些表征对捕捉大脑反应可能更为重要。
2. 实验2结果（训练轨迹）： * 当在超大数据集上训练时，GPT-2模型的预测性能随着训练步数的增加而提升，但在达到大约10%的训练步数（即还未完成一次完整的数据遍历）时，性能就达到了平台期。 * 在10%及之后检查点（100%， 1000%）的模型性能，与完全训练模型（1000%步数）的性能没有显著差异。这进一步支持了实验1的结论：模型在接触了相对有限的、但质量足够的数据后，就能迅速获得预测人脑反应的关键表征。 * 有趣的是，性能在平台期后（从100%到1000%步数）有轻微下降，研究者推测这可能是由于fMRI数据的时空分辨率较粗，无法捕捉更精细训练带来的微妙表征变化。
3. 困惑度与大脑预测性能的关系： * 在两个实验中，都观察到了一个清晰的模式：模型的困惑度越低（即下一个词预测能力越好），其预测fMRI大脑反应的能力就越强。 * 然而，这种关系是非线性的。一旦模型达到某个足够低的困惑度阈值（对应于足够的训练），进一步的困惑度降低并不会带来大脑预测性能的显著提升。这暗示，模型只要接受了足够的训练以达到较高的语言预测能力，它就会“自动”获得与大脑反应对齐的句子表征。
4. 次要基准（阅读时间）与架构泛化： * 对于阅读时间基准，观察到了与fMRI基准相似的趋势。但研究者指出，由于未训练模型在此基准上也表现出高于基线的预测性能，因此模型在此任务上的表现可能与语言刺激的表征关系不大，故将详细结果置于补充材料中。 * 使用MiniBERTa（双向架构）进行的对比显示，虽然增大训练数据量也能提升其预测性能，但在1亿词数据上训练的MiniBERTa性能仍显著低于完全训练模型。这表明单向注意力架构（如GPT-2）在数据样本效率上可能优于双向架构，能够用更少的数据实现与人类大脑数据的对齐。
研究结论与意义本研究得出的核心结论是：尽管一定的训练对于人工神经网络语言模型预测人脑反应的能力是必要的，但一个在发育上现实的数据量（约1亿词）可能就足够了。 大量训练数据并非是这些模型获得与人脑对齐的语言表征的先决条件。
科学价值： 1. 回应关键批评： 直接回应了关于ANN语言模型训练数据量远超人脑经验的常见批评，增强了其作为人类语言处理计算模型的合理性和生态效度。 2. 揭示对齐条件： 明确了模型与大脑对齐的两个关键条件：a) 需要一定量的训练（未随机初始化的模型不行）；b) 训练的目标是优化下一个词预测（困惑度是指标），这与人类语言理解中基于预测加工的理论相契合。 3. 澄清架构与初始化作用： 强调了模型权重初始化的复杂性及其对结果解释的影响，指出未来研究需考虑不同初始化的稳健性。同时，初步揭示了不同注意力机制在数据效率上的差异。 4. 提供方法论洞见： 展示了结合控制数据集大小和追踪训练动态两种方法的互补优势，为系统研究模型特性（如架构、目标函数、数据性质）对神经对齐的影响提供了范本。
应用价值与重要观点： * 为构建更贴近人类学习轨迹的、数据高效的认知计算模型提供了经验依据。 * 提示神经科学在利用语言模型作为研究工具时，可以关注那些在有限数据下训练就能获得良好大脑预测性能的模型特性，这或许能帮助识别出语言处理中更核心、更本质的计算原理。 * 研究者指出，未来需要进一步探究训练数据的性质（而不仅仅是数量）、模型的学习算法和目标函数，以及更精细的模型架构比较，以构建更准确、可解释的人脑语言处理模型。
研究亮点重要发现： 明确证明了GPT-2模型在仅接受发育合理数量（~1亿词）的训练后，就能达到接近最大程度的fMRI大脑反应预测能力。这一发现跨越了两种不同的实验设计（固定数据集训练和大型数据集训练轨迹），具有很强的稳健性。
方法新颖性： 研究设计精巧，采用了两种互补的实验方法来探讨同一个科学问题，既控制了训练总量，又模拟了持续学习的动态过程，使结论更为全面和可靠。
深度分析： 不仅报告了整体性能，还深入分析了性能随模型层数的变化、困惑度与大脑预测性能的关系，并对未训练模型性能的来源进行了重要辨析，加深了对“架构贡献”的理解。
启发性观点： 研究提出了多个富有启发性的观点和未来方向，例如关于模型为何难以预测长叙事神经反应的推测（涉及默认网络与抽象表征），以及关于数据性质、训练目标重要性的讨论，为后续研究开辟了道路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问