分享自:

神经形态多核多芯片系统的网络组划分与核心放置优化

期刊:IEEE Transactions on Emerging Topics in Computational IntelligenceDOI:10.1109/TETCI.2024.3379165

这篇文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


神经形态多核多芯片系统的网络分组划分与核心布局优化研究

作者及机构
Yukuan Yang(中国科学院软件研究所/清华大学精密仪器系)、Qihang Fan(清华大学精密仪器系)、Tianyi Yan(北京理工大学生命学院)、Jing Pei(清华大学精密仪器系)、Guoqi Li(中国科学院自动化研究所/中国科学院人工智能学院)。
发表信息
本研究发表于《IEEE Transactions on Emerging Topics in Computational Intelligence》2024年12月刊(第8卷第6期),DOI: 10.1109/TETCI.2024.3379165。


学术背景

研究领域
本研究属于神经形态计算(Neuromorphic Computing)人工智能硬件加速交叉领域,聚焦于深度神经网络(DNNs)在神经形态多核多芯片系统(NMCMC Systems)中的高效部署问题。

研究动机
传统基于冯·诺依曼架构的GPU和DNN加速器面临“内存墙”效应(Memory Wall Effect),即计算与存储分离导致的数据传输瓶颈。而神经形态芯片通过分布式存储与计算单元(核心)的并行架构,有望突破这一限制。然而,现有DNN部署方法存在两大挑战:
1. 网络划分:现有方案多为手动或仅支持单层小规模划分,缺乏自动化且资源优化的全局划分方法;
2. 核心布局:多核多芯片系统中时钟级通信死锁(Deadlock)问题尚未完全解决,影响系统吞吐量。

研究目标
提出自动化工具链,实现DNNs在NMCMC系统中的高效部署,包括:
- 首次将网络分组划分建模为资源最小化优化问题
- 开发时钟级模拟器以彻底避免死锁;
- 设计区域约束模拟退火算法(RCSA)优化核心布局。


研究流程与方法

1. 网络分组划分(Network Group Partition)

流程
- 分组策略:将ResNet等网络的残差块内层划分为同一组,共享逻辑核心资源。
- 4D划分维度:针对卷积层,沿行(Row)、列(Column)、输入通道(Input Channel)、输出通道(Output Channel)四个方向切片,平衡计算与通信负载。
- 约束条件:在核心内存限制(≤128 KB)和系统吞吐量要求(组延迟≤80,000周期)下,最小化核心使用数量。
- 搜索优化:采用贪婪算法遍历划分方案,选择核心数最少且满足约束的最优解。

创新方法
- 分布式求和(Distributed Sum):针对输入通道划分导致的高位宽数据,提出分布式累加策略,降低通信开销(相比集中式求和效率提升3倍)。
- 自动化工具链:支持从PyTorch/TensorFlow模型到ONNX格式的转换,自动提取网络图并生成划分方案。

2. 核心布局优化(Core Placement Optimization)

流程
- 死锁避免:建立时钟级多芯片模拟器,通过拓扑排序算法实时检测通信环路。
- RCSA算法
- 初始化:按组标签顺序集中放置核心,避免初始死锁;
- 区域约束:限制优化范围(如相邻组核心区域),减少无效搜索步骤;
- 目标函数:最小化最大组延迟,死锁方案直接淘汰(损失函数设为∞)。

实验验证
- 基准对比:与手动划分(MGP)、顺序布局(SCP)等方案对比,测试ResNet-18/34/50的部署效果。
- 性能指标:核心数、内存利用率、吞吐量(FPS)、死锁概率。


主要结果

  1. 网络划分性能

    • 核心数减少:相比手动划分(MGP),自动化方案(AGP)在ResNet-18/34/50上分别减少22.25%、17.77%、14.80%的核心使用量。
    • 内存利用率提升:AGP内存利用率达86.39%(MGP为76.95%),且组延迟更均衡(最大/最小延迟比从MGP的46.43%提升至65.88%)。
  2. 核心布局优化

    • 吞吐量提升:RCSA算法在ResNet-18/34/50上分别实现9.52%、11.91%、27.52%的吞吐量提升(对比SCP)。
    • 死锁解决:时钟级模拟器完全避免死锁,而传统方法在30%以上多播通信时死锁概率达83.8%。
  3. 工具链通用性
    通过调整路由策略和核心拓扑约束,可适配不同神经形态芯片(如Spinnaker、Loihi)。


结论与价值

科学价值
- 首次将网络分组划分形式化为优化问题,并提出自动化解决方案;
- 彻底解决时钟级死锁问题,为大规模DNN部署提供理论保障。

应用价值
- 工具链可显著降低硬件资源开销(如芯片面积、能耗),推动NMCMC系统在自动驾驶、机器人等实时场景的应用。


研究亮点

  1. 方法创新

    • 结合4D划分与分布式求和,优化通信-计算负载平衡;
    • RCSA算法通过区域约束将优化步骤减少至传统模拟退火的28.51%~86.17%。
  2. 工程贡献

    • 开源时钟级模拟器支持多芯片系统的高保真仿真;
    • 工具链兼容主流框架(PyTorch/TensorFlow),部署时间仅需数分钟。
  3. 局限性

    • 暂未在物理芯片上验证PPAC(性能/功耗/面积/成本)指标;
    • 对循环神经网络(RNN)和Transformer的适配性待优化。

此研究为神经形态计算系统的实际应用提供了关键技术支持,未来可扩展至更复杂的网络架构与多模态任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com