神经网络中图式的涌现:学习如何学习(learning-to-learn)机制研究
本报告旨在介绍一项发表于2023年5月《nature neuroscience》期刊(第26卷,第879-890页)的原创性研究。该研究的题目为“Schema formation in a neural population subspace underlies learning-to-learn in flexible sensorimotor problem-solving”,由纽约大学Vishwa Goudar、芝加哥大学Barbara Peysakhovich与David J. Freedman、华盛顿大学Elizabeth A. Buffalo以及纽约大学Xiao-Jing Wang(王骁晶)教授等研究人员共同完成。
一、 学术背景与研究目标
本研究隶属于计算神经科学与认知科学的交叉领域,聚焦于大脑如何高效学习这一核心认知过程。具体而言,研究者关注“学习如何学习”(learning-to-learn)的现象,即当个体连续解决一系列结构相似但具体内容不同的问题时,其学习速度会呈现指数级加速,最终达到“一学即会”(one-shot learning)的水平。这一概念最早由心理学家Harlow在1949年的猴子实验中发现,被认为是抽象知识获取和智力灵活性的基石。在心理学中,用于组织和加速学习的抽象知识结构被称为“图式”(schema)。尽管“图式”和“学习如何学习”的概念在心理学中被广泛讨论,但其背后的精确神经机制,尤其是在神经回路层面如何实现图式的形成、储存与复用,尚不明确。
与此同时,在人工智能领域,让机器学习系统具备“学习如何学习”的能力(常称为“元学习”, meta-learning)也是一个重大挑战。当前的人工智能模型通常需要为每个新任务进行大量重新训练,缺乏像生物智能那样快速适应和概括的能力。
因此,本研究的目标是:1) 探究在缺乏显式元学习目标的情况下,纯粹的“自然学习”动态是否足以自发产生“学习如何学习”的行为;2) 揭示图式在大脑(或类脑模型)中形成的具体神经机制,即它是如何被神经群体活动所编码的;3) 阐明图式的复用如何加速新问题的学习过程;4) 解释学习效率随经验积累而持续提升(即“学习如何学习”的动态过程)的机制。
二、 详细研究流程
本研究采用计算建模的方法,核心研究对象是一个循环神经网络(Recurrent Neural Network, RNN)模型。
1. 模型构建与任务设计: 研究者构建了一个包含100个循环连接单元的RNN模型,模拟前额叶皮层等脑区的神经群体。模型接收11维输入,包括1个固定信号(代表“注视”)和10维特征向量(代表随机的感觉刺激,模拟视觉物体的特征表示)。模型有3个输出单元,分别对应“注视保持”、“运动反应1”和“运动反应2”。模型的任务是学习“延迟感觉运动关联”(delayed sensorimotor association)。每个任务(或称为“问题”)包含一对全新的刺激,每个刺激被随机且唯一地映射到两个运动反应之一。每个试次(trial)结构固定:0.5秒样本呈现期(刺激出现,需注视)、1秒延迟期(仅需注视)、0.5秒反应期(需做出正确选择)。
2. 训练流程: 研究的关键在于训练范式。模型被依次训练解决成百上千个这样的关联问题。每个新问题都使用全新的随机刺激对,但任务结构(试次时序、反应选项)保持不变。模型通过时间的反向传播(Backpropagation Through Time, BPTT)算法进行训练,以最小化输出错误。特别重要的是,训练过程中没有引入任何显式的“元学习”目标或机制,即优化目标只针对当前问题的正确反应,而不包括“学得更快”这个高级目标。模型学会一个问题的标准是连续50个试次的平均错误率低于阈值,然后立即切换到下一个全新问题。研究者训练了30个不同随机初始化的网络以确保结果的稳健性。
3. 分析方法与干预实验: 研究采用了多层次的分析来窥探网络内部的“神经”机制: * 子空间分解(Subspace Decomposition): 为了解析群体活动,研究者使用了一种解混分析方法。他们将训练好的网络在多个问题中产生的神经活动轨迹分解到不同的子空间中:“决策子空间”(Decision Subspace)编码与反应选择相关的共享变量;“刺激子空间”(Stimulus Subspace)编码与特定问题刺激相关的信息。进一步地,决策子空间内的活动可分解为“平均决策成分”(对所有反应条件取平均,编码任务的共享时间结构)和“残差决策成分”(编码具体的选择,如反应1 vs 反应2)。 * 流形扰动(Manifold Perturbation): 为了因果性地证明特定神经表征的复用对加速学习至关重要,研究者借鉴了脑机接口(BCI)研究中的思路,进行了巧妙的干预实验。在模型学会第一个问题后,他们“冻结”(固定不变)其输出连接权重,然后通过扰动这些权重来人为改变“读出子空间”(Readout Subspace,即能够影响输出的活动子空间)与“决策子空间”的重叠关系。随后,让模型在输出权重被冻结的条件下学习第二个问题。通过比较不同扰动条件下(如完全消除决策-读出子空间重叠 vs. 仅改变刺激-读出子空间重叠)的学习效率,可以检验复用原有决策表征的必要性。 * 向量场变化(Vector Field Change, VFC)分析: 这是本研究引入的一个新颖且核心的分析工具。研究者将RNN的动态视为在高维状态空间中定义一个“向量场”(Vector Field),该场决定了神经活动随时间演化的方向和速度。学习过程中突触权重(连接权重)的改变,会引致这个向量场发生变化,即“权重驱动的向量场变化”(Weight-driven VFC)。通过定量分析这种变化,可以更深刻地理解权重修改如何具体地重塑神经动态以支持学习。研究将学习引起的活动总变化,分解为由“状态驱动的VFC”(源于网络原有动态的非线性)和“权重驱动的VFC”的贡献。
三、 主要研究结果
1. RNN模型自发涌现出“学习如何学习”行为。 尽管没有元学习机制,所有训练的网络都表现出学习效率的指数级提升。第一个问题需要数千个试次才能学会(由于随机初始化),第二个问题仅需数百试次,之后学习所需试次数持续下降,约在几百个问题后趋于稳定,平均每个问题仅需约20个试次即可学会。这个下降过程可以用衰减指数函数完美拟合,与猕猴在类似任务中的行为数据高度吻合。模型的这一表现证明,“学习如何学习”可以是底层学习动态自然涌现的属性。
2. 图式形成于神经群体活动的低维子空间中。 子空间分解分析揭示了关键发现:跨越多达50个连续学习的问题,模型发展出一个低维(约2-3维)的“决策流形”(Decision Manifold)。这个流形包含“平均决策”和“残差决策”成分,它们解释了跨问题神经活动变异的绝大部分(约88.5%)。这意味着,网络并非为每个新问题从头构建全新的神经编码,而是反复使用同一套抽象的、编码任务通用结构(何时注视、何时反应、有哪些选项)的“骨架”或“图式”。相比之下,编码具体刺激信息的“刺激子空间”维度更高但解释的方差很小。这强有力地证明了图式的神经基础是神经群体活动中一个可重复使用的低维抽象表征子空间。
3. 图式的复用是加速学习的关键原因。 流形扰动实验提供了因果证据。当人为扰动输出权重,使得新问题无法再利用已形成的决策子空间来驱动输出(即强制其构建全新的决策编码)时,模型学习第二个问题的效率骤降,退化到如同学习第一个问题般的缓慢水平。而作为对照,仅扰动刺激子空间或完全不扰动(仅冻结输出权重)则不影响学习加速。这表明,复用已存在的“图式流形”作为学习新问题的“脚手架”(scaffold),可以极大地减少学习负担,是学习加速的直接原因。研究还表明,即使任务结构略有变化(如从二选一变为三选一),先前形成的图式也能被调整和复用,从而促进学习。
4. 学习过程解析:重用为主,权重调整为辅以保持图式稳定。 通过创新的VFC分析,研究者精细地剖析了单个问题学习过程中的神经动态变化: * 学习引发的神经活动总变化很大,但这些变化是由沿着学习轨迹的一系列微小的局部变化累积而成的。 * 这些局部变化主要由网络原有的向量场(即重用的图式动态)驱动(“状态驱动的VFC”的平行分量贡献最大)。这表明学习主要依靠“引导”活动沿已有的动态骨架走向正确方向。 * 权重驱动的VFC主要扮演“稳定者”角色。其作用是抵消“状态驱动的VFC”中那些试图将活动推离原有图式流形的正交分量。换句话说,当新刺激被映射到旧图式上时,可能会引起图式表征发生“不理想”的畸变。突触可塑性(权重改变)的主要功能是阻止这种畸变,维持图式表征的稳定性(不变性)。权重改变并不主要负责“创造”新的活动模式,而是负责“保护”已有的模式不被干扰。
5. “学习如何学习”动态的机制:权重变化的累积提升图式鲁棒性。 研究进一步解释了学习效率为何能随着解决问题数量的增加而持续提升(即“学习如何学习”的动态)。他们发现,学习每个问题时发生的权重变化(特别是循环权重变化)会累积起来。这种累积效应会渐进地提升图式表征对于学习新映射的“鲁棒性”或“不变性”。早期问题中累积的权重调整,使得图式在面对后续新问题时更不容易发生畸变,因此后续问题学习时所需要的“权重驱动的VFC”(主要用于稳定图式)的幅度就会指数级减小。这直接导致了学习所需试次数(与权重变化幅度相关)的指数级下降。“学习如何学习”的慢过程,本质上是通过累积的突触可塑性,不断优化和巩固神经图式,使其成为一个越来越稳定、高效的学习支架。
四、 结论与意义
本研究得出结论:在感觉运动关联学习任务中,“图式”对应于前额叶类神经网络群体活动中形成的低维、抽象、可复用的决策表征子空间。“学习如何学习”的能力可以自发涌现,其机制包含两个层面:1) 在单个问题内,学习通过复用已有图式作为脚手架,并辅以最小化的权重调整来保持图式稳定,从而实现快速学习;2) 跨问题序列,学习过程中累积的权重变化不断优化图式本身,使其对新问题的干扰越来越不敏感(鲁棒性增强),从而使得学习新问题所需的权重调整越来越少,学习效率呈指数级提升。
本研究的科学价值在于: * 架起桥梁: 首次在计算神经模型中,将心理学概念“图式”和“学习如何学习”与具体的、可观测的神经回路机制(低维子空间、向量场动态、权重累积)明确联系起来。 * 提出新机制: 揭示了“权重驱动的向量场变化”这一关键分析视角,并阐明了突触可塑性在学习和元学习中的核心作用不仅是创造新连接,更是保护和优化已有的抽象结构。 * 预测与启发: 研究结果为神经科学实验提供了可检验的预测,例如,在前额叶皮层中应能观察到跨任务共享的低维决策表征;利用BCI技术干扰该表征的复用应会损害学习速度等。同时,该研究对人工智能领域也有启发,表明通过塑造网络内部动态来形成可复用的抽象结构,可能是实现高效元学习的一种重要途径。
五、 研究亮点
这项研究不仅增进了我们对大脑如何学会高效学习这一根本问题的理解,也为在人工智能中构建具备类似能力的系统提供了新的理论见解和分析工具。