分享自:

基于脉冲-softmax函数的Transformer脉冲神经网络转换方法

期刊:preprints.orgDOI:10.20944/preprints202410.2403.v1

东华大学团队提出SIT-Conversion方法:实现Transformer架构向脉冲神经网络的近乎无损转换

作者及发表信息
本研究的通讯作者为东华大学计算机科学与技术学院的Zijian Wang,共同第一作者为Xuhang Li(东华大学)和Qianzi Shen(中国移动上海产业研究院)。该预印本于2024年10月30日发布于Preprints.org平台,DOI编号10.20944/preprints202410.2403.v1,采用CC BY 4.0开放许可协议。

学术背景
本研究属于人工智能领域中的脉冲神经网络(Spiking Neural Networks, SNNs)与Transformer架构融合的前沿方向。传统人工神经网络(ANNs)虽在性能上占据优势,但SNNs凭借事件驱动特性、生物合理性和超低能耗(仅为ANNs的1/1000量级)成为类脑计算的核心载体。然而,SNNs的发展长期受限于网络架构复杂度,尤其是无法有效整合如Transformer这类高性能架构,核心瓶颈在于softmax激活函数与SNNs的脉冲计算规则不兼容。现有ANNs-to-SNNs转换方法仅能处理ReLU等简单函数,而Transformer的自注意力机制中softmax的指数-归一化操作无法通过脉冲神经元直接模拟,导致转换后的模型仍需保留ANNs的softmax模块,违背SNNs的全脉冲化原则。本研究旨在突破这一限制,提出Spiking-Softmax方法,首次实现softmax的脉冲化模拟,并基于此开发SIT-Conversion框架,完成Transformer架构向SNNs的完整转换。

研究方法与流程
1. Spiking-Softmax方法设计
- Spiking Exponential Neuron (SI-Exp)
通过优化时间编码参数(阈值电压$t(t)$、放电控制$h(t)$、权重$d(t)$),在12个时间步长内模拟指数运算。训练时使用[-1,1]区间内的10,000个均匀采样数据,其输出与真实指数函数的均方误差仅0.0015413。
- Spiking Collaboration Normalized Neuron (SI-Norm)
动态接收所有SI-Exp的输出总和作为阈值电压$v_{th}$,通过脉冲序列$s_r$(编码浮点数1.0)的累积-放电机制实现归一化。创新性地引入线性因子$wi/v{th}$,直接通过脉冲数$n_{spike}$计算输出,省去逐时间步迭代。

  1. SIT-Conversion框架构建

    • 以CNN-Transformer混合架构模型(EdgeNeXt、Next-ViT、Uniformer)为对象,逐步替换其自注意力模块中的softmax为Spiking-Softmax。
    • 对输入范围超出[-1,1]的模型(如Next-ViT)添加Sigmoid层预处理,确保Spiking-Softmax输入兼容性。
  2. 实验验证

    • 数据集:CIFAR-10/100(32×32图像)、ImageNet-1K(224×224图像)。
    • 评估指标:分类准确率、转换损失(ANN与SNN精度差)、能耗(基于45nm CMOS工艺的MAC与AC操作能耗模型)。
    • 对照方法:直接训练法(SpikFormer)、ANNs-to-SNNs转换法(MST、SNM、QCFS)。

主要结果
1. Spiking-Softmax性能
- 在12时间步内实现softmax模拟,均方误差0.013991,显著优于需256时间步的MST方法(误差>0.05)。

  1. 模型转换效果

    • EdgeNeXt(3层Transformer):ImageNet-1K准确率损失仅0.24%(79.42%→79.18%),能耗降低45.13%。
    • Next-ViT(4层Transformer):CIFAR100准确率提升0.01%(86.54%→86.55%),能耗降低20.09%。
    • Uniformer(10层Transformer):CIFAR10准确率提升0.13%(97.46%→97.59%),能耗降低24.75%。
  2. 横向对比

    • 相比MST模型(256时间步、转换损失1.01%),SIT-Conversion在12时间步下将转换损失压缩至0.24%以内。
    • 在ImageNet-1K上,Next-ViT转换后SNN准确率81.71%,超越SpikFormer(74.81%)和SpikingFormer(75.85%)。

结论与价值
本研究首次实现Transformer架构的全脉冲化转换,突破性地解决了softmax与SNNs的兼容性问题。科学价值体现在:
1. 提出SI-Exp/SI-Norm神经元,为复杂激活函数的脉冲化模拟提供通用范式;
2. 开发的SIT-Conversion框架支持不同规模Transformer模型(3~10层)的高效转换,平均能耗降低30%以上;
3. 实验证明转换后SNNs在静态数据集上可实现与ANNs近乎无损的性能匹配(误差<0.25%),为SNNs在视觉大模型中的应用奠定基础。

创新亮点
1. 方法创新:Spiking-Softmax通过动态阈值调整和脉冲协作机制,首次实现softmax的精确脉冲模拟。
2. 效率突破:仅需12时间步完成转换,较现有方法(如MST的256步)提升20倍效率。
3. 普适性验证:在轻量型(EdgeNeXt)到深层(Uniformer)Transformer上均保持稳定性能,最大支持10层自注意力模块的转换。

其他价值
本研究为神经形态芯片部署Transformer模型提供可行性方案,未来可通过扩展SI-Exp的输入范围(如[-5,5])进一步提升通用性。代码与模型参数已开源,推动SNNs在自动驾驶、边缘计算等低功耗场景的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com