分享自:

基于交叉神经形态架构的脉冲神经网络聚类与分配

期刊:21st ACM International Conference on Computing FrontiersDOI:10.1145/3649153.3649199

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


基于交叉阵列神经形态架构的脉冲神经网络聚类与分配研究

1. 作者与发表信息

本研究由Ilknur MustafazadeNagarajan KandasamyAnup Das(均来自美国德雷塞尔大学)合作完成,发表于ACM国际计算前沿会议(CF ‘24)(2024年5月7-9日,意大利伊斯基亚)。论文标题为《Clustering and Allocation of Spiking Neural Networks on Crossbar-Based Neuromorphic Architecture》,收录于会议论文集,共8页,DOI编号为10.11453649153.3649199


2. 学术背景

研究领域:本研究属于神经形态计算(neuromorphic computing)脉冲神经网络(Spiking Neural Networks, SNNs)硬件映射的交叉领域。
研究动机:传统SNN在神经形态硬件(如Intel Loihi、Dynap-SE等)上的执行效率受限于核心资源利用率低跨核心通信开销大。现有聚类方法(如Kernighan-Lin算法)未充分考虑硬件架构特性,导致生成的SNN子网络无法高效映射到交叉阵列(crossbar)中。
目标:提出一种架构感知的聚类与分配算法,优化SNN在交叉阵列架构上的资源利用率,支持两种硬件模型——基础架构(Cross,神经元仅映射到列)增强架构(Cross+,神经元可映射到行和列)


3. 研究流程与方法

(1)SNN建模与仿真
  • 研究对象:合成SNN及经典机器学习模型的脉冲版本(LeNet、AlexNet、DenseNet、ResNet)。
  • 工具链
    • 使用TensorFlow训练模型,通过SNN-Toolbox转换为SNN。
    • 利用PyCARL(基于PyNN前端和CARLSim后端)仿真SNN,提取突触权重、脉冲流量和时序数据。
(2)架构感知聚类算法

核心步骤
1. 基础子图生成(Algorithm 1)
- 遍历SNN中每个神经元,提取其所有输入边构建子图(subgraph),确保子图满足交叉阵列容量限制(如1024×1024交叉阵列最多容纳256个输入神经元)。
- 输出为可映射的最小单元(称为“基础块”)。

  1. 子图合并与打包(Algorithm 2-3)

    • 合并阶段:优先合并输入神经元重叠度高的子图,以复用交叉阵列的行资源(图8示例)。
    • 打包阶段:将非重叠但容量兼容的子图分配至同一交叉阵列,进一步提升利用率(图11b)。
    • 关键创新:通过Jaccard相似度量化子图重叠度,指导贪婪合并策略。
  2. Cross+架构适配

    • 将Cross的聚类结果扩展至Cross+,规则如下:
      • 高入度(high in-degree)的神经元优先映射到交叉阵列行,输入数据通过SRAM存储。
      • 跨交叉阵列通信冲突时,通过恒等矩阵(identity matrix)和SRAM冗余解决(图9-10)。
(3)性能评估指标
  • 交叉阵列利用率:已使用神经元与总容量的比值。
  • 输出输入比(OIR):反映交叉阵列端口平衡性。
  • 平均Jaccard相似度:衡量SRAM内容的复用效率。

4. 主要结果

(1)与基线方法对比
  • 交叉阵列数量减少:相比传统KL聚类,本方法平均减少1.9倍硬件资源(表1)。例如:
    • ResNet:从968个交叉阵列降至327个(利用率提升2.82倍)。
    • AlexNet:从5276个降至5208个(利用率提升1.43倍)。
(2)模型结构影响
  • 输入层规模:全连接层(如AlexNet输入层512神经元)因组合爆炸难以合并,需通过突触修剪(synaptic pruning)降低输入维度(图12)。
  • OIR优化:修剪低活跃度突触后,LeNet的OIR提升显著,而ResNet因初始平衡性高,修剪可能降低性能。
(3)Cross+架构优势
  • 资源复用:通过行列双向映射,SRAM存储的突触权重可跨交叉阵列共享,减少冗余。例如,DenseNet的交叉阵列需求从703个(Cross)降至274个(Cross+)(表2)。

5. 结论与价值

科学价值
- 首次提出交叉阵列拓扑约束下的SNN聚类算法,解决了传统方法忽略硬件架构的缺陷。
- 为神经形态硬件的编译工具链提供了可扩展的映射框架,支持不同规模的SNN部署。

应用价值
- 提升能效:通过优化资源利用率,降低动态功耗(如减少交叉阵列激活数量)。
- 兼容性:算法适配主流神经形态平台(如Loihi、Dynap-SE),可扩展至新型存内计算架构。


6. 研究亮点

  1. 架构感知设计:首次将交叉阵列的行列映射约束融入SNN聚类过程。
  2. 动态合并策略:基于Jaccard相似度的贪婪算法,显著提升硬件利用率。
  3. 跨模型验证:在合成SNN和经典模型(如ResNet、DenseNet)上均表现优异。

7. 其他贡献

  • 开源工具链:基于CARLSim的仿真流程为后续研究提供可复现基准。
  • 突触修剪指导:揭示了SNN结构与硬件效率的关联性,为模型压缩提供新思路。

(报告全文约2000字,涵盖研究全貌及技术细节)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com