神经网络中关系学习与快速知识重组的神经机制

神经机制与关系学习:神经网络中的快速知识重组

背景介绍

人类和动物具备一种惊人的能力,能够从有限的经验中学习项目之间的关系(如刺激、物体和事件),从而实现结构化泛化和快速信息整合。这种关系学习的一个基本类型是顺序学习,它使得个体能够进行传递性推理(例如,若a > b且b > c,则a > c)以及列表链接(例如,a > b > c和d > e > f在得知c > d后迅速重组为a > b > c > d > e > f)。尽管这一领域已有长期研究,但传递性推理和快速知识重组的神经生物学机制仍然不明确。本文通过赋予神经网络以神经调制的突触可塑性(允许自我导向学习)并通过人工元学习(学习如何学习)来识别这些机制,展示了神经网络如何执行传递性推理和列表链接,并进一步表达了在人类和动物中广泛观察到的行为模式。

论文来源

这篇论文由Thomas Miconi和Kenneth Kay撰写,分别来自ML Collective(旧金山,美国)和Columbia University(纽约,美国)。论文于2025年2月发表在《Nature Neuroscience》期刊上,DOI为10.1038/s41593-024-01852-8。

研究流程

1. 任务与模型设计

研究首先设计了一个经典的任务范式,涉及传递性推理和列表链接。任务被组织成多个“片段”(episodes),每个片段包含多个试验。在每个片段中,网络被要求学习一组全新随机刺激的顺序。刺激是高维二元向量,每个片段随机生成。每个片段包含30个试验,前20个试验仅包含相邻对(adjacent pairs),后10个试验包含所有可能的对(不包括相同的对如aa或bb)。

2. 网络结构与元训练

研究使用了一个递归神经网络(RNN),该网络具有突触可塑性和自我调控的神经调制。网络的输入包括当前时间步的刺激、奖励信号和前一时间的响应。网络的输出是两个可能响应的概率分布。每个片段的开始,网络的激活和Hebbian可塑性痕迹被重置,但突触权重保持不变。

3. 突触可塑性

网络中的递归连接具有可调的Hebbian可塑性。每个连接维护一个Hebbian资格迹(eligibility trace),它是输出和输入乘积的衰减运行平均值。网络还产生一个神经调制信号m(t),用于控制Hebbian迹转化为实际突触权重变化。

4. 元训练过程

元训练的目标是训练网络能够在多个片段中自主学习任意新的顺序。每个片段结束后,应用梯度下降来优化网络的结构参数(如基础权重和可塑性参数),以改进片段内的基于可塑性的学习。损失函数是整个片段中获得的总奖励。

主要结果

1. 传递性推理的行为模式

研究首先评估了成功学习网络的行为模式。网络在测试试验中表现出了经典的行为模式,即符号距离效应(symbolic distance effect)和端点效应(end-anchor effect)。这些行为模式与人类和动物实验中的观察结果一致。

2. 列表链接能力

网络还展示了快速链接分开学习的列表的能力。在学习了两个子列表(如a > b > c > d和e > f > g > h)后,网络在得知d > e后能够迅速推断出整个联合列表的顺序(如b > f)。这一能力表明,网络能够快速重组现有知识。

3. 神经机制分析

通过主成分分析(PCA),研究发现网络活动的第一主成分与输出权重向量高度对齐。进一步分析表明,网络在每个刺激的表示中编码了其顺序信息。网络通过将单个刺激的表示与输出权重向量的对齐来表示其顺序。

4. 表示学习与重新激活

研究还发现,网络在试验中重新激活了先前刺激的表示,这些表示以重新编码的形式存在。这种重新激活使得网络能够在试验延迟后修改先前刺激的表示,从而实现知识的快速重组。

结论

本研究通过元训练具有突触可塑性和神经调制的神经网络,成功地在经典传递性推理任务中实现了自主学习和知识重组。研究发现了网络通过重新激活先前刺激的表示来进行模型学习,这一机制与人类和动物中的记忆重放(replay)现象相似。这一研究不仅揭示了关系学习的神经机制,还为未来的认知模型提供了新的思路。

研究亮点

  1. 传递性推理与列表链接:网络成功实现了传递性推理和列表链接,再现了人类和动物的经典行为模式。
  2. 重新激活机制:网络通过重新激活先前刺激的表示来实现知识重组,这一机制与记忆重放现象相似。
  3. 元学习方法:研究通过元训练网络,使其能够自主学习和优化突触可塑性,为未来的认知模型研究提供了新的工具。

意义与价值

本研究不仅揭示了关系学习的神经机制,还为未来的认知模型研究提供了新的思路。通过元训练神经网络,研究展示了如何通过自主学习和优化突触可塑性来实现复杂的认知任务。这一研究为理解人类和动物的学习机制提供了新的视角,也为人工智能领域的发展提供了重要的理论支持。