分享自:

高性能脉冲变压器从人工神经网络到脉冲神经网络的转换

期刊:ACMDOI:10.1145/3664647.3680620

类型a:学术研究报告

北京大学黄子涵、史新宇、郝泽成、卜彤、丁剑豪、余昭菲(通讯作者)和黄铁军团队于2024年在ACM国际多媒体会议(MM ‘24)上发表了题为《Towards High-Performance Spiking Transformers from ANN to SNN Conversion》的研究论文。该研究聚焦人工智能领域的脉冲神经网络(Spiking Neural Networks, SNNs)与人工神经网络(Artificial Neural Networks, ANNs)的转换问题,提出了一种创新的转换方法,旨在解决传统Transformer模型因非线性模块(如LayerNorm、GELU)难以高效转换为SNN的难题。

学术背景

SNN因其生物启发的脉冲计算特性,具有高能效、快速处理和鲁棒性等优势,被视为第三代神经网络。目前构建SNN主要有两种方法:直接训练和ANN-SNN转换。直接训练需消耗大量内存资源,而现有转换方法多局限于卷积神经网络(CNNs),因Transformer中的非线性模块(如注意力机制、GELU激活函数)与SNN的脉冲发放机制难以兼容。本研究的目标是实现高性能Transformer到SNN的转换,同时降低延迟与能耗。

研究流程与方法

研究分为三个核心步骤:

  1. 非线性模块的误差分析与补偿机制设计

    • 问题分析:传统ANN-SNN转换理论依赖线性ReLU函数,而Transformer包含非线性操作(如Softmax、矩阵乘法),导致转换误差。
    • 期望补偿模块(Expectation Compensation Module, ECM):通过累积前T-1时间步的信息,动态计算当前时间步的期望输出。例如,矩阵乘积层的ECM通过加权累加输入脉冲(公式16-18),确保输出与ANN一致。
  2. 多阈值神经元(Multi-Threshold Neuron, MT)与并行参数归一化

    • 设计动机:单一阈值神经元需长时步实现高精度,但会增加延迟。MT神经元引入多个阈值(如正负基阈值θ₁和-θ₂),允许单时间步内传递更多信息。
    • 动态机制:神经元根据膜电位选择发放阈值(公式25),实验显示多数脉冲集中在基阈值,其他阈值脉冲稀疏,兼顾效率与精度。
    • 参数归一化:将ANN权重扩展为多阈值对应的SNN权重(公式27),保证参数规模均衡。
  3. 整体转换算法(ECMT)

    • 步骤
      1. 统计ANN预训练模型在关键层的激活值分布,确定MT神经元的基阈值。
      2. 替换非线性模块为ECM,线性层前插入MT神经元。
      3. 通过并行归一化调整参数,实现低延迟转换。

主要结果

  1. 性能对比实验

    • 在ImageNet1k数据集上,转换后的SNN模型(如EVA)仅用4个时间步即达到88.60%的Top-1准确率,较原ANN仅损失1%精度,能耗降低65%。
    • 与现有SOTA方法相比,ECMT在Vit-L/16模型上以4时间步实现83.2%准确率,显著优于CNN-SNN转换方法(如SRP的68.61%)。
  2. 多阈值有效性验证

    • 阈值数量(2n)实验显示,n=8时模型性能最优(图5)。
    • 脉冲发放统计表明,基阈值脉冲占主导(图6),其他阈值脉冲稀疏,验证了能效优势。
  3. 能耗分析

    • 通过理论计算(公式30)与硬件假设(MAC操作能耗4.6pJ),ECMT仅需35%的ANN能耗即可实现相近精度。

结论与价值

本研究首次实现了Transformer到SNN的高精度、低延迟转换,核心贡献包括:
1. 科学价值:提出ECM理论框架,解决了非线性模块的转换误差问题;MT神经元设计为SNN的低延迟优化提供了新思路。
2. 应用价值:在复杂数据集上验证了方法的通用性,为边缘设备部署高能效SNN模型奠定了基础。代码已开源(GitHub链接)。

亮点与创新

  • ECM模块:通过时间步累积信息实现无损转换,突破传统线性量化限制。
  • MT神经元:通过多阈值与稀疏脉冲降低延迟,实验显示n=8时性能最佳。
  • 全模型兼容性:支持主流Vision Transformer(如ViT、EVA),无需特定结构修改。

其他价值

研究还指出,当前方法仍存在少量乘法运算,未来可结合神经形态芯片(如Tianjic)进一步优化,实现纯累积计算。这一方向为SNN的硬件适配提供了新启示。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com