这篇文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
作者及机构:
Yukuan Yang(中国科学院软件研究所/清华大学精密仪器系)、Qihang Fan(清华大学精密仪器系)、Tianyi Yan(北京理工大学生命学院)、Jing Pei(清华大学精密仪器系)、Guoqi Li(中国科学院自动化研究所/中国科学院人工智能学院)。
发表信息:
本研究发表于《IEEE Transactions on Emerging Topics in Computational Intelligence》2024年12月刊(第8卷第6期),DOI: 10.1109/TETCI.2024.3379165。
研究领域:
本研究属于神经形态计算(Neuromorphic Computing)与人工智能硬件加速交叉领域,聚焦于深度神经网络(DNNs)在神经形态多核多芯片系统(NMCMC Systems)中的高效部署问题。
研究动机:
传统基于冯·诺依曼架构的GPU和DNN加速器面临“内存墙”效应(Memory Wall Effect),即计算与存储分离导致的数据传输瓶颈。而神经形态芯片通过分布式存储与计算单元(核心)的并行架构,有望突破这一限制。然而,现有DNN部署方法存在两大挑战:
1. 网络划分:现有方案多为手动或仅支持单层小规模划分,缺乏自动化且资源优化的全局划分方法;
2. 核心布局:多核多芯片系统中时钟级通信死锁(Deadlock)问题尚未完全解决,影响系统吞吐量。
研究目标:
提出自动化工具链,实现DNNs在NMCMC系统中的高效部署,包括:
- 首次将网络分组划分建模为资源最小化优化问题;
- 开发时钟级模拟器以彻底避免死锁;
- 设计区域约束模拟退火算法(RCSA)优化核心布局。
流程:
- 分组策略:将ResNet等网络的残差块内层划分为同一组,共享逻辑核心资源。
- 4D划分维度:针对卷积层,沿行(Row)、列(Column)、输入通道(Input Channel)、输出通道(Output Channel)四个方向切片,平衡计算与通信负载。
- 约束条件:在核心内存限制(≤128 KB)和系统吞吐量要求(组延迟≤80,000周期)下,最小化核心使用数量。
- 搜索优化:采用贪婪算法遍历划分方案,选择核心数最少且满足约束的最优解。
创新方法:
- 分布式求和(Distributed Sum):针对输入通道划分导致的高位宽数据,提出分布式累加策略,降低通信开销(相比集中式求和效率提升3倍)。
- 自动化工具链:支持从PyTorch/TensorFlow模型到ONNX格式的转换,自动提取网络图并生成划分方案。
流程:
- 死锁避免:建立时钟级多芯片模拟器,通过拓扑排序算法实时检测通信环路。
- RCSA算法:
- 初始化:按组标签顺序集中放置核心,避免初始死锁;
- 区域约束:限制优化范围(如相邻组核心区域),减少无效搜索步骤;
- 目标函数:最小化最大组延迟,死锁方案直接淘汰(损失函数设为∞)。
实验验证:
- 基准对比:与手动划分(MGP)、顺序布局(SCP)等方案对比,测试ResNet-18/34/50的部署效果。
- 性能指标:核心数、内存利用率、吞吐量(FPS)、死锁概率。
网络划分性能:
核心布局优化:
工具链通用性:
通过调整路由策略和核心拓扑约束,可适配不同神经形态芯片(如Spinnaker、Loihi)。
科学价值:
- 首次将网络分组划分形式化为优化问题,并提出自动化解决方案;
- 彻底解决时钟级死锁问题,为大规模DNN部署提供理论保障。
应用价值:
- 工具链可显著降低硬件资源开销(如芯片面积、能耗),推动NMCMC系统在自动驾驶、机器人等实时场景的应用。
方法创新:
工程贡献:
局限性:
此研究为神经形态计算系统的实际应用提供了关键技术支持,未来可扩展至更复杂的网络架构与多模态任务。