神经形态多核多芯片系统的网络组划分与核心放置优化

分享自：

神经形态多核多芯片系统的网络组划分与核心放置优化

医学

电子科学与信息系统

期刊:IEEE Transactions on Emerging Topics in Computational IntelligenceDOI:10.1109/TETCI.2024.3379165

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a（单篇原创研究论文），以下是针对该研究的学术报告：
神经形态多核多芯片系统的网络分组划分与核心布局优化研究作者及机构：
 Yukuan Yang（中国科学院软件研究所/清华大学精密仪器系）、Qihang Fan（清华大学精密仪器系）、Tianyi Yan（北京理工大学生命学院）、Jing Pei（清华大学精密仪器系）、Guoqi Li（中国科学院自动化研究所/中国科学院人工智能学院）。
 发表信息：
 本研究发表于《IEEE Transactions on Emerging Topics in Computational Intelligence》2024年12月刊（第8卷第6期），DOI: 10.1109/TETCI.2024.3379165。
学术背景研究领域：
 本研究属于神经形态计算（Neuromorphic Computing）与人工智能硬件加速交叉领域，聚焦于深度神经网络（DNNs）在神经形态多核多芯片系统（NMCMC Systems）中的高效部署问题。
研究动机：
 传统基于冯·诺依曼架构的GPU和DNN加速器面临“内存墙”效应（Memory Wall Effect），即计算与存储分离导致的数据传输瓶颈。而神经形态芯片通过分布式存储与计算单元（核心）的并行架构，有望突破这一限制。然而，现有DNN部署方法存在两大挑战：
 1. 网络划分：现有方案多为手动或仅支持单层小规模划分，缺乏自动化且资源优化的全局划分方法；
 2. 核心布局：多核多芯片系统中时钟级通信死锁（Deadlock）问题尚未完全解决，影响系统吞吐量。
研究目标：
 提出自动化工具链，实现DNNs在NMCMC系统中的高效部署，包括：
 - 首次将网络分组划分建模为资源最小化优化问题；
 - 开发时钟级模拟器以彻底避免死锁；
 - 设计区域约束模拟退火算法（RCSA）优化核心布局。
研究流程与方法1. 网络分组划分（Network Group Partition）流程：
 - 分组策略：将ResNet等网络的残差块内层划分为同一组，共享逻辑核心资源。
 - 4D划分维度：针对卷积层，沿行（Row）、列（Column）、输入通道（Input Channel）、输出通道（Output Channel）四个方向切片，平衡计算与通信负载。
 - 约束条件：在核心内存限制（≤128 KB）和系统吞吐量要求（组延迟≤80,000周期）下，最小化核心使用数量。
 - 搜索优化：采用贪婪算法遍历划分方案，选择核心数最少且满足约束的最优解。
创新方法：
 - 分布式求和（Distributed Sum）：针对输入通道划分导致的高位宽数据，提出分布式累加策略，降低通信开销（相比集中式求和效率提升3倍）。
 - 自动化工具链：支持从PyTorch/TensorFlow模型到ONNX格式的转换，自动提取网络图并生成划分方案。
2. 核心布局优化（Core Placement Optimization）流程：
 - 死锁避免：建立时钟级多芯片模拟器，通过拓扑排序算法实时检测通信环路。
 - RCSA算法：
 - 初始化：按组标签顺序集中放置核心，避免初始死锁；
 - 区域约束：限制优化范围（如相邻组核心区域），减少无效搜索步骤；
 - 目标函数：最小化最大组延迟，死锁方案直接淘汰（损失函数设为∞）。
实验验证：
 - 基准对比：与手动划分（MGP）、顺序布局（SCP）等方案对比，测试ResNet-18/34/50的部署效果。
 - 性能指标：核心数、内存利用率、吞吐量（FPS）、死锁概率。
主要结果网络划分性能：
核心数减少：相比手动划分（MGP），自动化方案（AGP）在ResNet-18/34/50上分别减少22.25%、17.77%、14.80%的核心使用量。
 
内存利用率提升：AGP内存利用率达86.39%（MGP为76.95%），且组延迟更均衡（最大/最小延迟比从MGP的46.43%提升至65.88%）。
 
核心布局优化：
吞吐量提升：RCSA算法在ResNet-18/34/50上分别实现9.52%、11.91%、27.52%的吞吐量提升（对比SCP）。
 
死锁解决：时钟级模拟器完全避免死锁，而传统方法在30%以上多播通信时死锁概率达83.8%。
 
工具链通用性：
 通过调整路由策略和核心拓扑约束，可适配不同神经形态芯片（如Spinnaker、Loihi）。
结论与价值科学价值：
 - 首次将网络分组划分形式化为优化问题，并提出自动化解决方案；
 - 彻底解决时钟级死锁问题，为大规模DNN部署提供理论保障。
应用价值：
 - 工具链可显著降低硬件资源开销（如芯片面积、能耗），推动NMCMC系统在自动驾驶、机器人等实时场景的应用。
研究亮点方法创新：
结合4D划分与分布式求和，优化通信-计算负载平衡；
 
RCSA算法通过区域约束将优化步骤减少至传统模拟退火的28.51%~86.17%。
 
工程贡献：
开源时钟级模拟器支持多芯片系统的高保真仿真；
 
工具链兼容主流框架（PyTorch/TensorFlow），部署时间仅需数分钟。
 
局限性：
暂未在物理芯片上验证PPAC（性能/功耗/面积/成本）指标；
 
对循环神经网络（RNN）和Transformer的适配性待优化。
 
此研究为神经形态计算系统的实际应用提供了关键技术支持，未来可扩展至更复杂的网络架构与多模态任务。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问