这篇文档属于类型a,它报告了一项原创性研究。
第一作者为Wayne W.M. Soo(剑桥大学工程学院),通讯作者之一为Xiao-Jing Wang(纽约大学神经科学中心)。其他作者包括Aldo Battista(纽约大学神经科学中心)和Puria Radmard(剑桥大学工程学院)。这项研究作为论文在第38届神经信息处理系统会议(NeurIPS 2024)上发表。
本研究的核心科学领域是计算神经科学与人工智能的交叉,特别是生物启发的视觉处理模型。在视觉神经科学中,两大主流计算模型各有侧重:卷积神经网络(Convolutional Neural Network, CNN)因其卓越的空间特征提取能力和在物体识别任务上的高性能而被广泛采用,以模拟腹侧视觉流的信息处理。然而,传统的CNN本质上是静态的前馈模型,缺乏时间维度上的动力学特性,这与生物神经回路持续演化的动态活动存在差距。另一方面,递归神经网络(Recurrent Neural Network, RNN)在神经科学中被建模为连续时间动力学系统,能够更好地模拟生物神经元的动态行为、时间信息整合以及丰富的动力学状态(如稳态、振荡和混沌),更符合生物神经回路处理信息的方式。然而,传统全连接的RNN在处理高维图像数据时效率低下,无法匹敌CNN在视觉任务上的性能。因此,一个关键的科学鸿沟在于:如何构建一个既具备CNN高效图像处理能力,又具有RNN连续时间动力学特性的模型,从而更真实、更统一地模拟生物视觉系统?
针对这一问题,本研究旨在开发一种混合架构,以弥合这一鸿沟。具体目标是:1)设计并验证一种能融合CNN空间卷积结构优势与RNN连续时间动力学优势的新模型;2)证明该模型在保持动力学表达能力的同时,能在标准图像分类任务(如ImageNet)上达到与经典CNN相当的性能;3)展示该模型作为连续时间系统所固有的优势,如自主持续推理和噪声鲁棒性;4)开发适用于分析这种混合模型的计算工具;5)证明该模型能够作为“图像可计算”的前端,与下游RNN结合以执行复杂的认知任务,并预测高级视觉皮层神经活动的时间特征。这项研究代表了将动力学系统领域数十年的进展引入视觉神经科学的一次综合性努力。
详细工作流程如下:
研究共包含五个主要部分,即模型设计与验证、模型训练与性能评估、模型动力学分析、模型在认知任务中的应用,以及与神经数据的比对。研究的核心对象是一个名为 CORDSnet(卷积RNN动力学系统) 的新型混合神经网络架构。
第一部分:模型设计、构建与基本动力学验证。 这是研究的核心创新环节。作者没有简单地拼接CNN和RNN,而是从根本上重构了卷积层。在CORDSnet中,每个传统CNN的卷积层被替换为一个连续时间递归动力学层。该层的动态由微分方程描述:τ * dr/dt = -r + σ(Conv_rec(r) + b + Conv_inp(h_inp))。其中,r是神经元(或特征图)的发放率,τ是时间常数,σ是非线性激活函数(如ReLU)。关键在于,该方程中的递归权重矩阵W_rec和输入权重矩阵W_inp被约束为卷积操作(Conv_rec和Conv_inp)。这样,模型既保留了CNN的空间局部连接和参数共享特性,又引入了RNN的连续时间循环动态。为了验证这种结构限制是否会损害动力学表达力,研究者首先分析了随机初始化的CORDSnet。他们通过调整递归权重矩阵的初始化方差,成功在模型中复现了全连接RNN已知的三种典型动力学状态:稳定状态、振荡状态和混沌状态(图1b)。这初步证明卷积结构并未限制其作为动力学系统的基本表达能力。
为进一步检验其解决复杂认知任务的能力,研究者选择了神经科学中常用的五项标准认知任务(感知决策、参数工作记忆、多感官决策、情境决策、延迟匹配样本)进行训练。他们独立训练了CORDSnet、全连接RNN、低秩RNN和稀疏RNN,并比较了它们完成任务时产生的神经活动轨迹。利用典型相关分析(Canonical Correlation Analysis)和对齐方法,他们发现所有架构训练后产生的神经轨迹高度相似(图1c)。这表明CORDSnet能够利用与其他成熟架构相同的动力学基元(dynamical motifs)来解决认知问题。此外,通过使用表征相似性度量进行定量分析,发现CORDSnet产生的解与全连接RNN更为相似。最后,研究者还证明了CORDSnet能够实现经典的吸引子动力学,例如用于存储方向信息的环状吸引子(图1d)、线吸引子和离散不动点。这些系统性验证共同表明,CORDSnet的卷积递归权重结构并没有削弱其作为一个复杂动力学系统的表达能力。
第二部分:高效训练算法开发与图像分类性能评估。 这部分解决了连续时间模型训练的计算挑战。直接训练CORDSnet(需要模拟数百个时间步)计算成本极高。为此,作者设计了一种三步初始化方法(图2b):1)先训练一个无循环部分的传统前馈CNN;2)将训练好的卷积层参数通过“批归一化折叠”技术,转化为一个线性递归神经网络(激活函数为恒等映射)的参数,并求解其稳态近似解,然后在一个简化的损失函数下对这个线性RNN进行微调;3)通过参数化ReLU激活函数进行非线性的“退火”引入,逐步将线性激活变为非线性激活,从而获得一个接近最终模型的良好初始点。这套方法显著降低了达到同等性能所需的训练时间。
研究者使用该方法在MNIST、Fashion-MNIST、CIFAR-10/100和ImageNet等多个数据集上训练了不同深度(2、4、6、8层)的CORDSnet模型。损失函数设计精妙,不仅包含图像呈现期间的分类损失(交叉熵),还增加了一项刺激后活动回归自发活动水平的约束项,以确保模型具有单一稳定点,从而能够进行长时间的自主、稳定推理。作为对照,他们也直接训练了CORDSnet以及参数规模匹配的全连接RNN。
主要结果表明:1)提出的初始化方法有效,在除MNIST外的所有数据集上都比直接训练取得了更高的测试准确率(表1)。2)在相同训练时长下,较大的CORDSnet模型(R6/R8)在所有数据集上都显著优于参数匹配的全连接RNN。全连接RNN在ImageNet上表现极差,突显了卷积结构在处理图像高维数据时的效率优势(图2d)。3)经过微调后的CORDSnet模型,其准确率能够达到与其对应的前馈CNN相近的水平,尽管仍存在一定差距(例如在ImageNet上,CORDSnet-R8达到57.9%,而其CNN对照为63.16%)。这证明了他们成功训练出了一个具备强大图像处理能力的连续时间动力学系统。
第三部分:模型特性分析与计算工具开发。 这部分深入探究了已训练CORDSnet的独特性质。作为一个连续时间模型,其特征图会随时间演变。研究者展示了一个可解释的特征图如何随时间逐渐变化(图3a)。更重要的是,他们对比了CORDSnet与一个离散时间递归CNN(Cornet-RT)以及前馈CNN在时间动态上的差异(图3b)。在持续刺激下,CORDSnet的活动会上升并维持在稳定水平,一旦刺激移除,活动会自发回归基线。而Cornet-RT只在特定训练过的时间点能做出准确预测。当连续呈现不同图像时,CORDSnet能灵活地适应并正确分类每一个,而Cornet-RT则可能失败。这体现了CORDSnet作为一个自主动力系统的特性:它能随时间无限地进行推理、自我重置并灵活响应刺激变化。
另一个固有优势是噪声鲁棒性。当输入图像被添加逐帧不相关的白噪声时,前馈CNN的活动会严重偏离无噪声基线,导致准确率下降。而CORDSnet的活动偏离被抑制了一个数量级以上,并在高噪声水平下保持了稳定的分类准确率(图3c,d)。这源于连续时间动力学的自然滤波效应和循环权重的平滑作用。
分析CORDSnet的动力学在计算上极具挑战,因为无法将巨大的卷积核展开为完整的递归权重矩阵。为此,研究者开发了一套专门针对卷积结构的分析工具包。例如,他们利用Arnoldi迭代法(图4a)直接从卷积核形式计算权重矩阵的特征值。他们发现,训练模型使其在不同时间点进行分类,会诱导出不同的动力学特征:需要较早分类的模型表现出振荡行为,其权重矩阵特征值具有更大的虚部,这可能通过“瞬态超调”机制来加速信号传播(图4b)。工具包还包含适用于卷积操作的降维方法,帮助识别了模型活动空间中与特定类别判断(如区分两种犬种)相关的维度(图4c)。
第四部分:作为认知任务图像可计算前端的应用。 这部分展示了CORDSnet在神经建模中的直接应用价值。研究者将预训练好的CORDSnet-R8作为前端视觉模块,其输出连接到一个全连接的RNN(512个神经元),构建了一个多区域模型(图5)。他们仅训练后端的全连接RNN,使其能够基于CORDSnet提取的实时视觉特征,执行一系列猴子实验中使用的认知任务。关键突破在于,模型输入是实验中使用或按实验规范生成的真实图像或视频刺激,而非抽象的简化输入。这些任务包括:数值量化、类别辨别、眼动延迟反应和感知决策(证据累积)。在训练后的模型中,研究者在全连接RNN层中发现了可解释的神经元,它们分别对刺激数量、类别(猫/狗)、屏幕空间位置和运动方向具有选择性调谐。这证明了CORDSnet能够作为一个强大的、“图像可计算”的视觉前端,为构建更逼真的、处理复杂自然刺激的认知模型奠定了基础。
第五部分:与神经活动时间特征的比对。 研究者使用Brain-Score框架评估CORDSnet预测神经数据的能力,但特别关注时间特征。他们将CORDSnet各层的活动(未经时间平均)与猴子视觉皮层V4区和颞下皮层(Inferotemporal Cortex, IT)在呈现刺激后随时间记录的神经活动进行比对。结果显示,CORDSnet-R8最后两层的活动动态与V4和IT区记录的活动在时间进程上表现出直观的相似性(图6b)。通过计算皮尔逊相关性并对比未经时间打乱和经过时间打乱的神经数据,他们发现所有CORDSnet模型在V4和IT区对未打乱数据的预测得分均显著更高(图6c)。这表明CORDSnet确实捕捉到了神经活动中内在的时间结构,而不仅仅是平均响应强度。
结论与意义: 本研究成功提出并系统验证了CORDSnet——一种融合了CNN空间处理能力和连续时间RNN动力学特性的新型混合神经网络架构。研究的主要结论是:1)CORDSnet在理论上具有丰富的动力学表达力,能复现稳定、振荡、混沌等多种状态,并能利用与其他RNN架构相似的动力学基元解决认知任务;2)通过开发高效的三步初始化算法,CORDSnet能在ImageNet等大型图像分类任务上达到与标准CNN相近的性能,证明了其实际可行性;3)作为连续时间动力学系统,CORDSnet展现出自主、持续的推理能力、刺激后自我重置能力以及对输入噪声的天然鲁棒性;4)开发的分析工具包使深入研究此类大型卷积动力学模型成为可能;5)CORDSnet能作为有效的图像可计算前端,用于构建多区域认知模型;6)CORDSnet能够预测高级视觉皮层神经活动的时间特征。
本研究的科学价值在于,它首次系统性地弥合了视觉神经科学中CNN模型和动力学RNN模型长期存在的隔阂,建立了一个统一的计算框架。它将连续时间动力学的生物真实性成功引入了高性能视觉处理模型中,为未来构建更接近生物大脑工作方式的人工智能模型和计算神经模型开辟了新道路。其应用价值体现在:为理解大脑视觉信息处理的时空动态提供了新工具;其噪声鲁棒性和自主性可能启发开发更稳健、更灵活的机器视觉系统;其作为认知任务前端的能力,有助于在更真实的条件下模拟和解释高级认知功能。
研究亮点: 1. 架构创新性:提出的CORDSnet架构是本质性的创新,通过将卷积操作嵌入连续时间微分方程,实现了两种范式在数学形式上的深度融合,而非简单串联。 2. 系统性验证:研究从基础动力学表达、认知任务解决能力、图像处理性能、计算工具开发、多区域建模到神经数据预测,进行了全面且环环相扣的验证,逻辑链条完整。 3. 突破性进展:成功训练出能在ImageNet规模任务上有效工作的连续时间视觉动力学模型,这是此前难以实现的。 4. 方法学贡献:提出的三步初始化算法和专门的分析工具包,解决了训练和分析此类模型的关键技术瓶颈,具有重要的方法论意义。 5. 高度生物相关性:模型设计紧密围绕神经科学的关注点(动力学、认知任务、神经预测),其成果直接推动了计算神经科学对视觉处理的理解。