面向量化神经网络的高效内存计算硬件：现状、开放挑战与展望

分享自：

面向量化神经网络的高效内存计算硬件：现状、开放挑战与展望

工程学

半导体科学与信息器件

期刊:IEEE Transactions on NanotechnologyDOI:10.1109/TNANO.2023.3293026

【点击此处】阅读全文、收藏及针对性提问

面向量化神经网络的高效存内计算硬件：研究现状、开放挑战与未来展望
本文由Olga Krestinskaya（IEEE学生会员）、Li Zhang与Khaled Nabil Salama（IEEE高级会员）共同撰写，发表于2023年的IEEE Transactions on Nanotechnology第22卷。三位作者均来自沙特阿拉伯阿卜杜拉国王科技大学（KAUST）电气与计算机工程项目。文章系统综述了基于存内计算（In-Memory Computing, IMC）的量化神经网络（Quantized Neural Networks, QNNs）硬件实现，并提出了未来研究方向与挑战。
研究背景与核心问题随着云计算数据量激增、物联网（IoT）应用普及及数据隐私问题凸显，边缘计算（Edge Computing）逐渐取代云端处理成为趋势。然而，边缘设备受限于计算资源与能耗，传统冯·诺依曼架构面临“内存墙”与能效瓶颈。IMC通过直接在内存中执行矩阵-向量乘法（Matrix-Vector Multiplication, MVM）操作，显著减少数据搬移开销，成为神经网络硬件加速的理想选择。同时，量化技术通过将浮点权重和激活值转换为低精度定点数（如1-8位），进一步降低内存占用、延迟与能耗。本文旨在探讨IMC硬件如何高效支持QNNs，并分析软件量化方法与硬件实现的关联性。
核心内容与主要观点1. 存内计算硬件基础IMC硬件依赖两类存储设备：
 - 易失性存储器：如静态随机存取存储器（SRAM）和动态随机存取存储器（DRAM），技术成熟但容量受限。
 - 非易失性存储器：如阻变存储器（RRAM）、相变存储器（PCM）、自旋扭矩磁阻存储器（STT-MRAM）等，支持多级存储且密度高，但存在耐久性、电导漂移等非理想特性。
IMC架构通常采用交叉阵列（Crossbar）结构，通过模拟域或数字域实现MVM运算。关键挑战包括：
 - 模拟域计算：需高精度数模转换器（DAC）和模数转换器（ADC），但ADC功耗占系统总功耗的90%。
 - 数字域计算：依赖逐行读取，效率较低。
2. 量化方法与硬件映射量化方法分为均匀量化（等间隔划分）和非均匀量化（如对数量化、码本量化）。硬件实现需考虑：
 - 权重映射：高精度权重需拆分为多个低精度存储单元（如1T1R结构），但会增加ADC分辨率需求。
 - 激活量化：动态量化（实时调整截断范围）精度高但复杂，静态量化（预定义范围）更适合硬件。
 - 混合精度量化（Mixed-Precision Quantization, MPQ）：不同层采用不同位宽，需硬件支持可配置精度。
3. IMC硬件实现案例二值化神经网络（BNN）：权重与激活均为1位，通过XNOR操作降低ADC需求（如RRAM方案能效比SRAM高5.8倍）。
 
三值权重网络：权重为{-1, 0, +1}，利用两个RRAM单元表示正负权重，减法器生成零值。
 
高比特固定点计算：SRAM与RRAM是主流方案，但需解决ADC功耗问题（如8位权重使能效从40.2 TOPS/W降至0.6 TOPS/W）。
 
4. 开放挑战与未来方向高效推理架构：需优化ADC设计、减少部分和计算开销，并解决非易失性存储器的非理想性（如RRAM的耐久性仅10^6次）。
 
片上训练：当前QNN训练依赖全精度梯度，需开发仅支持量化值的算法。
 
混合精度支持：硬件需动态配置位宽，避免资源浪费。
 
自动化量化策略搜索：结合硬件感知的神经架构搜索（HW-NAS），优化位宽与ADC精度。
 
软件-硬件协同设计：缺乏统一工具链支持多样化IMC设备与非理想性建模。
 
研究意义与价值本文首次系统梳理了IMC-based QNN的硬件实现路径，提出从设备、架构到算法的全栈优化框架。其科学价值在于：
 1. 理论层面：揭示了量化方法与硬件非理想性的关联性，为算法-硬件协同设计提供依据。
 2. 应用层面：为边缘AI芯片开发提供技术路线图，如可重构精度、3D集成等方向。
 3. 方法论创新：提出硬件感知的量化策略搜索框架（如HW-NAS），推动自动化设计发展。
亮点与创新全面性：涵盖SRAM、RRAM、PCM等多种IMC设备的QNN实现对比。
 
前瞻性：提出IMC硬件路线图（图4），明确短期与长期技术节点。
 
跨学科视角：链接软件量化算法（如STE梯度近似）与硬件电路设计（如ADC分辨率优化）。
 
本文为存内计算与量化神经网络的交叉研究提供了重要参考，尤其对边缘AI芯片开发者具有直接指导意义。未来需进一步解决非易失性存储器的可靠性问题，并建立标准化软件-硬件协同设计平台。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问