这篇文档属于类型a,是一篇关于脉冲神经网络(Spiking Neural Network, SNN)硬件/软件协同设计的原创性研究论文。以下是详细的学术报告内容:
本研究的通讯作者为Lei Wang,第一作者为Chao Xiao,合作作者包括Yi Wei、Yuanfeng Luo、Zhijie Yang、Rui Gong和Weixia Xu。研究团队来自中国国防科技大学(National University of Defense Technology)计算机科学与技术学院,以及北京军事科学研究院(Defense Innovation Institute, AMS)。论文发表于Journal of Systems Architecture,2025年第168卷,文章编号103553。
研究领域:本研究属于神经形态计算(neuromorphic computing)与片上网络(Network-on-Chip, NoC)的交叉领域,聚焦于优化脉冲神经网络在神经形态硬件上的通信效率。
研究动机:
- 问题背景:神经形态硬件(如IBM的TrueNorth、Intel的Loihi)通过多计算核心并行加速SNN计算,但核心间脉冲通信成为性能瓶颈。传统方法中,单个脉冲需独立封装为数据包,导致片上网络流量激增,引发高延迟与能耗。
- 关键挑战:现有SNN映射方法易陷入局部最优,且硬件层单播路由(unicast routing)效率低下。
- 研究目标:通过分析SNN的神经元级通信模式,提出软硬件协同优化框架,降低通信延迟与能耗。
研究首先识别SNN中两种主导通信模式:
- 空间一致性局部通信(spatially consistent local communication):卷积层神经元仅与相邻层固定区域神经元连接(如3×3或5×5窗口),且空间位置相对一致。
- 多对同目标通信(many-to-same communication):同一核心内多个神经元可能共享目标核心,导致重复传输相同元数据。
数据支持:以LeNet网络为例,通道优先分区(channel-first partition)后,集群间通信呈现稀疏性与局部性(图3)。
步骤1:跨层拓扑排序(C-LTS)
- 方法:基于Hilbert空间填充曲线(HSC)将2D集群映射为1D序列,保留空间局部性。通过栈结构(LIFO)优先处理入度为0的集群,确保跨层通信集群在1D序列中相邻。
- 创新点:引入集群索引降序约束,维持原始空间一致性(算法1)。
步骤2:轻量级微调算法
- 方法:动态-静态分解成本函数,仅更新交换集群及其邻居的通信开销(算法2)。
- 优势:利用SNN连接稀疏性,降低计算复杂度。
实验验证:在6个SNN基准测试(如C10Net128、VGG11)中,C-LTS+微调较随机映射降低43.9%延迟与74.4%能耗。
创新点:通过虚拟映射表替代全物理互联,缓冲需求减少28–1662倍(表3)。
映射算法性能:
SEMR硬件效率:
综合效益:软硬件协同框架在VGG13等大型SNN上实现16.8%–49.6%能效提升与7.4%–47.2%延迟降低。
科学价值:
- 提出首个基于SNN通信模式分析的软硬件协同优化框架,为神经形态计算系统设计提供新范式。
- 理论贡献:揭示SNN的局部性与多对同目标通信特性,并转化为可工程化的优化方法。
应用价值:
- 适用于自动驾驶、图像分类等实时低功耗场景,提升TrueNorth、Loihi等硬件的实际性能。
- SEMR机制可集成至现有神经形态芯片,无需重构底层架构。
方法论创新:
实验规模:覆盖6个SNN基准(0.4M–7.7M神经元),验证方案的普适性。
开源工具链:基于SpikingJelly框架训练SNN,扩展Noxim模拟器支持脉冲通信仿真,促进领域复现。
本研究通过严谨的算法设计与硬件协同,为SNN在神经形态硬件上的高效部署提供了系统级解决方案。