识别脉冲神经网络的高效数据流

分享自：
识别脉冲神经网络的高效数据流

工程学
信息科学
电气科学与工程
人工智能
计算机科学
期刊:ACM/IEEE International Symposium on Low Power Electronics and Design (ISLPED '22)DOI:10.1145/3531437.3539704
【点击此处】阅读全文、收藏及针对性提问
脉冲神经网络高效数据流识别研究学术报告作者及发表信息本研究由Deepika Sharma（普渡大学，美国印第安纳州西拉法叶）、Aayush Ankit（微软研究院，美国加利福尼亚州山景城）和Kaushik Roy（普渡大学）合作完成，发表于ACM/IEEE International Symposium on Low Power Electronics and Design (ISLPED ’22)，会议于2022年8月1日至3日在美国波士顿举行。论文标题为《Identifying Efficient Dataflows for Spiking Neural Networks》，可通过DOI链接10.1145⁄3531437.3539704获取全文。
研究背景与目标科学领域与研究动机本研究属于神经形态计算（Neuromorphic Computing）与硬件加速器设计的交叉领域，聚焦于脉冲神经网络（Spiking Neural Networks, SNNs）的高效能效硬件实现。SNNs因其生物启发的脉冲通信机制和事件驱动特性，被认为比传统人工神经网络（Artificial Neural Networks, ANNs）更适用于低功耗边缘计算场景。然而，SNNs的硬件实现面临独特挑战：
 1. 数据流复杂性：SNNs需额外维护神经元膜电位（membrane potential, *vmem*），并在每个时间步（timestep）更新，导致数据移动模式与传统ANNs显著不同。
 2. 资源利用率瓶颈：现有ANN硬件加速器的数据流优化方法（如权重固定、输出固定）无法直接迁移至SNNs，需针对SNNs的时空稀疏性和时间维度重新设计。
研究目标是通过系统化数据流探索，提出适用于深度前馈SNNs的最优数据流策略，以降低能耗-延迟积（Energy-Delay Product, EDP），并为不同硬件架构与工作负载提供通用优化准则。
研究方法与流程1. 基准架构与数据流设计研究选取类Eyeriss架构作为基准硬件平台（SNN-Arch1），并扩展出两种变体（SNN-Arch2/3，差异见表1），以覆盖不同资源约束的加速器设计。关键硬件特性包括：
 - 多级存储层次：片外DRAM、全局共享缓冲区（global buffer）、处理单元（PE）局部缓存。
 - 专用PE设计：包含权重/输入/vmem/输出缓冲区、阈值寄存器、累加器和比较器单元。
基准数据流通过将ANN最优数据流（通过Timeloop工具生成）的时间步维度（*t*）外推至最外层构建，未改变原有数据固定性（如权重固定-WS、输出固定-OS）。
2. 数据流优化规则研究提出三条核心优化规则，通过调整循环顺序与维度划分提升数据复用和硬件利用率：
规则1（时间步内层化，Rule 1: t in）将时间步循环（*t*）移至最内层，使*vmem*在计算块内持续复用，减少DRAM访问。例如，对点卷积（PWC）层，该规则降低DRAM能耗1.3倍（图3示例）。
规则2（PE缓冲区维度扩展，Rule 2: x in PE buffer）将部分计算维度（如输出通道*k*）划分至PE缓冲区循环，提升缓冲区利用率。例如，将*k*的因子2从全局缓冲区下移至PE输出缓冲区，使全局缓冲区能耗降低1.17倍（图3(iii)）。
规则3（时间步分层迁移，Rule 3: t in outer to inner）将时间步因子逐步向计算单元靠近，权衡存储层级间的数据移动。需谨慎应用以避免能耗转移（如DRAM能耗降低但全局缓冲区能耗增加）。实验显示，适度迁移（Rule 3(i)）对卷积层（CONV）有效，而激进迁移（Rule 3(iii)）可能适得其反。
3. 实验验证方法工作负载：涵盖三类卷积层（常规CONV、深度分离DWC、点卷积PWC），从VGG19网络提取或合成（表3）。
 
评估工具：基于Timeloop框架改进，加入SNN特定修正（如1-bit脉冲的读写能耗模型）。
 
性能指标：以能耗-延迟积（EDP）为核心，对比基准与优化后数据流的归一化改进。
 
主要研究结果1. 规则对EDP的影响卷积层（CONV）：规则1与规则2普遍有效（EDP降低10%-40%），规则3(i)进一步优化，但激进版本（Rule 3(iii)）无显著增益（图4(i)-(iii)）。
 
点卷积层（PWC）：规则3(iii)在SNN-Arch3上实现最高98%的EDP降低，因PE计算单元增多（128个16位加法器）支持更细粒度时间并行。
 
深度分离卷积（DWC）：规则3效果有限，因其计算密集型特性受限于权重复用机会。
 
2. 数据流类型对比不同硬件架构与工作负载下，最优数据流类型各异（图5）：
 - SNN-Arch1（资源受限）：行固定（RS）数据流在PWC1层最优，因最大化输入/权重/*vmem*复用。
 - SNN-Arch3（高并行）：权重固定（WS）在PWC2层胜出，因大容量PE缓冲区支持权重长期驻留。
研究结论与价值科学意义方法论创新：首次系统化提出SNN专用数据流优化规则，填补了ANN与SNN硬件映射间的理论空白。
 
跨架构普适性：通过三类硬件变体验证，证明规则可适配不同资源约束的加速器设计。
 
应用价值边缘计算：为基于SNN的无人机视觉（如动态视觉传感器DVS）、物联网设备提供能效优化方案。
 
硬件设计指导：为神经形态芯片（如IBM TrueNorth、Intel Loihi）的数据流映射提供新思路。
 
研究亮点时序维度优化：首次明确时间步（*t*）在SNN数据流中的核心地位，提出分层迁移策略。
 
规则驱动设计：通过可扩展规则替代穷举搜索，降低设计空间探索复杂度（SNN数据流排列数达8!种）。
 
跨工作负载验证：覆盖CONV/DWC/PWC三类典型层，证明方法的广泛适用性。
 
其他贡献开源工具适配：改进Timeloop以支持SNN评估，为后续研究提供基准平台。
 
跨学科启示：结合算法（如基于速率的SNN训练）与硬件优化，推动神经形态计算的全栈发展。
 
本研究为SNN硬件高效实现奠定了重要基础，未来可扩展至递归SNN（RSNN）或更复杂的脉冲编码方案（如时间编码）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问