面向量化神经网络的高效存内计算硬件:研究现状、开放挑战与未来展望
本文由Olga Krestinskaya(IEEE学生会员)、Li Zhang与Khaled Nabil Salama(IEEE高级会员)共同撰写,发表于2023年的IEEE Transactions on Nanotechnology第22卷。三位作者均来自沙特阿拉伯阿卜杜拉国王科技大学(KAUST)电气与计算机工程项目。文章系统综述了基于存内计算(In-Memory Computing, IMC)的量化神经网络(Quantized Neural Networks, QNNs)硬件实现,并提出了未来研究方向与挑战。
随着云计算数据量激增、物联网(IoT)应用普及及数据隐私问题凸显,边缘计算(Edge Computing)逐渐取代云端处理成为趋势。然而,边缘设备受限于计算资源与能耗,传统冯·诺依曼架构面临“内存墙”与能效瓶颈。IMC通过直接在内存中执行矩阵-向量乘法(Matrix-Vector Multiplication, MVM)操作,显著减少数据搬移开销,成为神经网络硬件加速的理想选择。同时,量化技术通过将浮点权重和激活值转换为低精度定点数(如1-8位),进一步降低内存占用、延迟与能耗。本文旨在探讨IMC硬件如何高效支持QNNs,并分析软件量化方法与硬件实现的关联性。
IMC硬件依赖两类存储设备:
- 易失性存储器:如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM),技术成熟但容量受限。
- 非易失性存储器:如阻变存储器(RRAM)、相变存储器(PCM)、自旋扭矩磁阻存储器(STT-MRAM)等,支持多级存储且密度高,但存在耐久性、电导漂移等非理想特性。
IMC架构通常采用交叉阵列(Crossbar)结构,通过模拟域或数字域实现MVM运算。关键挑战包括:
- 模拟域计算:需高精度数模转换器(DAC)和模数转换器(ADC),但ADC功耗占系统总功耗的90%。
- 数字域计算:依赖逐行读取,效率较低。
量化方法分为均匀量化(等间隔划分)和非均匀量化(如对数量化、码本量化)。硬件实现需考虑:
- 权重映射:高精度权重需拆分为多个低精度存储单元(如1T1R结构),但会增加ADC分辨率需求。
- 激活量化:动态量化(实时调整截断范围)精度高但复杂,静态量化(预定义范围)更适合硬件。
- 混合精度量化(Mixed-Precision Quantization, MPQ):不同层采用不同位宽,需硬件支持可配置精度。
本文首次系统梳理了IMC-based QNN的硬件实现路径,提出从设备、架构到算法的全栈优化框架。其科学价值在于:
1. 理论层面:揭示了量化方法与硬件非理想性的关联性,为算法-硬件协同设计提供依据。
2. 应用层面:为边缘AI芯片开发提供技术路线图,如可重构精度、3D集成等方向。
3. 方法论创新:提出硬件感知的量化策略搜索框架(如HW-NAS),推动自动化设计发展。
本文为存内计算与量化神经网络的交叉研究提供了重要参考,尤其对边缘AI芯片开发者具有直接指导意义。未来需进一步解决非易失性存储器的可靠性问题,并建立标准化软件-硬件协同设计平台。