分享自:

基于进化结构学习策略的脉冲神经网络

期刊:association for the advancement of artificial intelligence

基于进化结构学习的脉冲神经网络稀疏训练框架:ESL-SNNs

作者及发表信息

本研究的核心作者包括Jiangrong Shen(浙江大学计算机科学与技术学院)、Qi Xu(大连理工大学人工智能学院,通讯作者)、Jian K. Liu(英国利兹大学计算机学院)、Yueming Wang与Gang Pan(浙江大学计算机科学与技术学院)、Huajin Tang(浙江大学智能计算研究中心及之江实验室,通讯作者)。研究发表于AAAI-23(第37届人工智能国际会议),标题为《ESL-SNNs: An Evolutionary Structure Learning Strategy for Spiking Neural Networks》。

学术背景

研究领域与动机
脉冲神经网络(Spiking Neural Networks, SNNs)因具有事件驱动特性与低功耗优势,在类脑计算与神经形态芯片应用中备受关注。然而,传统SNNs训练过程中存在参数冗余问题,导致内存占用高、能效比低。尽管已有研究通过训练后剪枝(post-training pruning)优化推理阶段的稀疏性,但训练阶段的结构冗余仍未解决。

生物学启发
人脑发育过程中,神经连接通过结构可塑性(structural plasticity)动态重塑——突触持续生成与消除,最终形成稀疏高效的网络。受此启发,本研究提出进化结构学习框架(ESL-SNNs),旨在实现SNNs从零开始的稀疏训练,动态平衡剪枝与再生过程,探索最优连接拓扑。

研究方法与流程

1. 框架设计

ESL-SNNs的核心是通过Erdős–Rényi随机图初始化稀疏连接,并在训练中动态调整结构:
- 初始化阶段
网络层间连接概率由公式 ( p(w_{ij}) = \frac{\epsilon(nk + n{k-1})}{nk \times n{k-1}} ) 控制,其中(\epsilon)为稀疏因子。例如,输入层784节点与隐藏层800节点的连接密度可通过调整(\epsilon)实现(图2显示(\epsilon=10)至90时的参数规模与精度变化)。
- 动态演化规则
- 剪枝规则:每(T_{\text{iter}})次迭代剪除权重最接近0的(\alpha)比例连接(如(\alpha=0.1))。
- 再生规则:采用动量增长(momentum-based growth)或随机未激活优先(random unfired growth)策略,补充同等数量的新连接,保持总密度稳定。

2. 模型实现

多层前馈SNNs
- 神经元模型:使用非泄漏积分发放(non-leaky integrate-and-fire)神经元,膜电位计算如公式(3):
( vj(t) = \sum{i=1}^{n_i} \theta(t-ti)w{ij}(1-\exp(-(t-t_i))) ),其中(\theta)为Heaviside阶跃函数。
- 损失函数:基于首次脉冲时间的z域交叉熵损失(公式6),通过梯度下降优化。

卷积SNNs
- 神经元模型:迭代LIF(Leaky Integrate-and-Fire)神经元,膜电位更新如公式(7)-(9),结合时间误差阈值(TET)损失(公式10)进行多时间步训练。
- 稀疏约束:权重矩阵(W)与进化掩码(M)逐元素相乘((W{ij} = W{ij} \times M_{ij})),确保仅有效连接参与更新。

3. 实验设置

  • 数据集:MNIST、CIFAR10、CIFAR100、DVS-CIFAR10。
  • 对比基准:包括ADMM剪枝(Deng et al. 2021a)、梯度重连(Grad R, Chen et al. 2021)等。
  • 评估指标:测试精度、连接密度(如10%至95%)、能耗(GPU与神经形态芯片Truenorth的FLOPs/SOPs对比)。

主要结果

1. 多层SNNs性能

  • 稀疏性-精度权衡(图2):当(\epsilon=60)时,仅16%连接密度(103k参数)即可达到96.58%准确率,较全连接网络(635k参数,96.7%)仅下降0.12%。相同参数规模的非稀疏模型精度仅92%,证明ESL-SNNs的高效性。
  • 能耗对比(表1):稀疏模型在Truenorth芯片上的能耗(1.29e-6 J)较GPU(1.84e-6 J)低一个数量级。

2. 卷积SNNs性能

  • 动态演化效果(图3b):各层密度在训练初期振荡,200轮后趋于稳定。例如,128通道卷积层保留47%连接,而512通道层仅8%,符合“大层更冗余”的假设。
  • 最优策略(图4):动量增长+集合剪枝(set pruning)组合在10%密度下仅损失0.28%精度(DVS-CIFAR10),显著优于随机或梯度增长。
  • SOTA对比(表2):在CIFAR10上,50%密度的ResNet-19 ESL-SNNs达到91.09%准确率(原模型92.79%);DVS-CIFAR10上10%密度的VGGSNN精度78.3%,优于DenseNet等模型。

结论与价值

科学意义
1. 填补稀疏训练与密集训练的表示能力差距:通过动态参数探索,ESL-SNNs首次实现SNNs从零开始的稳定稀疏训练,无需依赖预训练密集模型。
2. 类脑机制工程化:突触剪枝-再生规则模拟生物神经可塑性,为神经形态计算提供新范式。

应用价值
- 低功耗训练:减少内存访问与计算开销,适配嵌入式硬件(如神经形态芯片)。
- 扩展性:框架兼容前馈与卷积SNNs,支持多类任务(静态图像与事件数据)。

研究亮点

  1. 动态稀疏训练创新:首次将进化连接机制引入SNNs训练全过程,突破传统“先密集后剪枝”的局限。
  2. 生物学合理性:突触动态调整规则直接模拟人脑发育过程,增强模型解释性。
  3. 高效能验证:在MNIST与DVS-CIFAR10上,10%连接密度下精度损失均%,显著优于同期方法。

其他价值

  • 开源潜力:算法1提供的伪代码可实现性强,适合社区复现与扩展。
  • 跨平台适配:能耗分析涵盖GPU与神经形态硬件,为实际部署提供参考。

(注:全文依据AAAI-23论文原文整理,实验数据与图表引用均来自原文献。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com