分享自:

基于多室神经元脉冲世界模型的模型强化学习研究

期刊:PNASDOI:10.1073/pnas.2513319122

本次报告的研究论文题为《Spiking world model with multicompartment neurons for model-based reinforcement learning》,由Yinqian Sun、Feifei Zhao、Mingyang Lyu和Yi Zeng等学者共同完成。研究团队主要来自中国科学院自动化研究所类脑认知智能实验室(Brain-inspired Cognitive AI Lab, Institute of Automation, Chinese Academy of Sciences)、长期人工智能(Long-term AI)、中国科学院脑科学与智能技术卓越创新中心(State Key Laboratory of Brain Cognition and Brain-Inspired Intelligence Technology)以及中国科学院大学人工智能学院(School of Artificial Intelligence, University of Chinese Academy of Sciences)。该研究成果于2025年12月12日发表在《PNAS》(Proceedings of the National Academy of Sciences)期刊第122卷第50期上,论文识别号为e2513319122。

该研究的学术背景集中于人工智能与计算神经科学的交叉领域,特别是受脑启发的智能计算。具体而言,研究涉及两个核心方向:脉冲神经网络(Spiking Neural Networks, SNNs)和基于模型的强化学习(Model-based Reinforcement Learning)。受生物神经元信息处理机制启发的脉冲神经网络,因其采用离散的脉冲信号进行计算,相较于传统的人工神经网络(Artificial Neural Networks, ANNs)在能效方面具有潜在优势,并已在感知任务中取得广泛应用。然而,在决策领域,特别是需要长时程规划和预测的基于模型的强化学习中,SNNs的应用仍处于探索阶段。基于模型的强化学习的核心是构建一个能够学习环境动态的世界模型(World Model),使智能体能够在潜在空间中模拟未来轨迹,从而提高样本效率和长视野规划能力。实现这一目标的关键挑战在于,网络模型需要具备强大的长时程记忆能力。传统SNNs中广泛使用的简化神经元模型(如漏电积分发放(Leaky Integrate-and-Fire, LIF)神经元)缺乏模拟生物神经元复杂形态结构(如树突)的能力,而神经科学研究表明,树突的计算功能,特别是其对多源信息的非线性整合,对于神经元的模式分离、时序记忆和复杂决策至关重要。因此,本研究旨在借鉴生物神经元的树突计算机制,设计一种新型的多室神经元(Multicompartment Neuron, MCN)模型,并基于此构建一个全脉冲的世界模型,从而在SNNs中实现高效、强大的基于模型的深度强化学习。研究的目标是验证所提出的模型在复杂控制任务和长序列处理任务中的性能,并探索其相对于现有SNN模型以及传统ANN模型的优势。

研究的工作流程主要包括以下几个环节:模型设计、模型构建、实验评估与结果分析。

首先,在模型设计阶段,研究团队提出了一个新颖的多室神经元模型。该模型受生物神经元形态结构启发,将神经元划分为基底树突(Basal Dendrite)、顶端树突(Apical Dendrite)和胞体(Soma)三个功能区室。基底树突主要负责接收和处理外部输入信号以及来自网络内部隐藏状态的反馈信号;顶端树突则接收类似的输入,但其核心功能是通过一个非线性门控函数(如Sigmoid函数)动态地调制胞体对基底树突输入信号的响应强度。这种设计模拟了生物神经元中顶端树突对胞体兴奋性的调控作用,使得神经元能够根据上下文信息(由顶端树突电位表征)灵活地处理来自基底树突的信息流,从而实现更复杂的时序信息整合和长时程记忆。该MCN模型的动态过程通过一组微分方程描述,并最终通过欧拉法等数值方法进行离散化实现。

其次,在模型构建阶段,基于上述MCN,研究团队构建了一个完整的脉冲世界模型(Spiking-WM)。该模型架构仿照经典的Dreamer等基于ANN的世界模型,但全部组件均由脉冲神经网络实现。它主要包括三个核心部分:1)一个基于MCN的脉冲状态空间模型(Spiking State-Space Model),用于在潜在空间中建模环境状态的时序动态;2)一个脉冲卷积神经网络(Spiking Convolutional Neural Network, SCNN),用于对高维视觉观测进行脉冲编码和特征提取;3)一个全连接的SNN模块,用于将观测特征、历史潜在状态和动作进行整合,生成MCN的输入序列。此外,模型还包含用于预测奖励、环境持续信号和未来观测的解码器(由脉冲转置卷积网络实现),以及用于决策的脉冲演员-评论家(Actor-Critic)网络。整个模型采用时空反向传播(Spatio-temporal Backpropagation, STBP)算法进行端到端的联合优化。STBP结合了时间反向传播(BPTT)和替代梯度技术,能够有效处理脉冲事件的非可微问题,稳定地优化深层SNN在长时序任务中的参数。

研究的第三部分是实验评估。为了全面评估Spiking-WM和MCN模型的性能,研究团队设计了两大类实验:深度强化学习控制任务和长序列语音数据处理任务。在DeepMind视觉控制套件(DeepMind Control Suite, DMC)的实验中,研究选取了19个连续视觉控制任务作为测试平台。他们将Spiking-WM与多种基线模型进行了对比,包括基于门控循环单元(Gated Recurrent Unit, GRU)的ANN世界模型(Dreamer),以及基于不同神经元(如LIF、自适应LIF(ALIF)、脉冲循环神经元(LIF-RNN)、并行脉冲神经元(PSN)和两室LIF神经元(TC-LIF))构建的脉冲世界模型。所有对比模型均采用相同的架构和参数规模(通过调整神经元数量确保总参数量相近)进行公平比较。模型在100万帧的环境交互中进行训练,并以最终任务得分作为性能指标。在长序列记忆能力测试中,研究使用了一个更简单的两层全连接网络(由MCN或其他对比神经元构成),在三个语音序列数据集上评估其分类准确率:脉冲海德堡数字数据集(Spiking Heidelberg Digits, SHD)、德州仪器/麻省理工学院声学-语音连续语音语料库(TIMIT)以及LibriSpeech 100h数据集。此外,研究还进行了一系列深入的分析实验,包括:1)探究MCN中膜时间常数作为可学习参数的影响;2)通过消融实验分析基底树突和顶端树突输入各自的作用;3)通过网格搜索分析树突电导参数和非线性门控参数对性能的影响;4)比较不同数值积分方法(欧拉法、Heun法、Runge-Kutta 4)对模型训练的影响;5)分析MCN的树突与胞体膜电位相关性、相位锁定值(PLV)以及脉冲发放模式;6)估算并对比MCN模型与GRU、LIF模型的能量效率。

研究的主要结果内容丰富且具有说服力。

在DeepMind控制任务中,Spiking-WM模型表现出色。其平均得分达到了基于GRU的ANN世界模型(Dreamer)性能的90.4%,显著优于其他所有脉冲基线模型。例如,它超越了TC-LIF模型(81.9%的GRU性能),并将LIF及其衍生模型的性能提升了31%至38%。更重要的是,Spiking-WM在“Cartpole Balance”、“Cup Catch”、“Finger Spin”和“Finger Turn Hard”四个任务上甚至超越了Dreamer(GRU)模型。这些结果强有力地证明了所提出的MCN模型在构建高性能脉冲世界模型方面的优越性,以及将生物启发的SNN应用于复杂模型基强化学习的巨大潜力。

在长序列语音数据集测试中,MCN模型同样展现了卓越的长时程记忆能力。在SHD、TIMIT和LibriSpeech 100h三个数据集上,基于MCN的简单网络均取得了最佳的分类准确率,其性能与GRU模型相当,并显著超越了包括LIF、ALIF、PSN、LIF-RNN和TC-LIF在内的所有其他脉冲神经元模型。这直接验证了MCN模型本身在时序信息处理和长程依赖学习方面的内在优势。

深入的分析实验进一步揭示了MCN的工作原理和特性。消融实验表明,同时具备基底和顶端树突输入的完整MCN配置性能最优,移除任一树突输入都会导致性能显著下降,证实了这两个功能单元在信息整合中的协同作用至关重要。树突膜电位分析显示,基底树突电位与胞体电位呈强正相关,而顶端树突电位与胞体电位呈负相关,且其门控信号有效控制了神经元的脉冲发放模式:只有当顶端树突门控信号较高时,基底树突的强输入才能引发脉冲。这直观地展示了顶端树突的“调制器”角色。参数分析表明,树突电导和非线性参数存在一个较优的配合区间,但整体上,引入树突计算过程本身比精确调整其时间常数对性能的贡献更大。数值方法比较发现,尽管高阶方法(如RK4)理论上更精确,但在STBP训练框架下,简单的欧拉法因其更稳定的梯度而取得了更好的实际任务性能,这揭示了SNN训练中数值精度与优化稳定性之间的权衡。最后,能量估算显示,得益于极低的脉冲发放率,MCN模型的能量消耗比LIF模型更低,并且比GRU模型低了一个数量级,凸显了SNN在能效方面的固有优势。

基于以上结果,本研究得出以下结论:通过借鉴生物神经元的树突计算机制,所提出的多室神经元模型及其构建的脉冲世界模型,成功地将基于模型的深度强化学习范式扩展到了脉冲神经网络领域。该模型不仅在复杂的视觉控制任务中达到了与先进ANN世界模型相媲美的性能,而且在长序列处理任务上超越了现有的SNN架构。这项工作不仅提升了SNN在决策领域的应用能力,也为理解树突计算等复杂生物过程如何启发更强大、更高效的计算系统提供了重要见解。

本研究的亮点在于:第一,方法新颖:创造性地提出了一种具备非线性树突整合功能的多室脉冲神经元模型,将生物神经元中基底树突与顶端树突的功能分化和协同作用引入了人工SNN设计。第二,架构完整:首次构建了一个完全由脉冲神经网络组件构成的世界模型(Spiking-WM),实现了从感知编码、状态预测到策略学习的全脉冲模型基强化学习框架。第三,性能卓越:在标准基准测试中取得了突破性成果,证明了生物启发的SNN在样本效率要求高的复杂决策任务中可以达到与主流ANN方法竞争的水平。第四,分析深入:不仅报告了任务性能,还通过大量分析实验揭示了模型内部的工作机制、参数影响和能量特性,增强了研究的可信度和理论深度。第五,跨领域价值:研究架起了微观神经计算(树突机制)与宏观认知功能(规划与决策)之间的桥梁,对类脑人工智能和计算神经科学均具有重要价值。

此外,论文也坦诚地指出了当前模型的局限性,例如在脉冲发放后对树突电位的重置机制过于简化,未模拟生物中常见的反向传播动作电位(Backpropagating Action Potential, BAP);以及所采用的STBP优化方法在生物合理性上存在不足。这些为未来的研究工作指明了改进方向,例如探索结合局部可塑性规则(如STDP)与全局误差信号的混合训练策略,以及引入更逼真的树突动态模型。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com