基于RRAM的无ADC存内计算宏单元与二进制CNN在边缘AI中的高效实现
作者及机构
本研究的核心团队来自中国科学院微电子研究所(Yi Li、Linfang Wang等)与香港大学(Zhongrui Wang)等机构,合作单位包括香港ACCESS-AI芯片中心、浙江大学实验室等。论文发表于《IEEE Transactions on Circuits and Systems—II: Express Briefs》2023年6月刊(Vol. 70, No. 6),标题为《An ADC-Less RRAM-Based Computing-in-Memory Macro with Binary CNN for Efficient Edge AI》。
研究领域与动机
本研究属于存内计算(Computing-in-Memory, CIM)与边缘人工智能(Edge AI)的交叉领域。传统基于加权电流求和(Weighted-Current Summation, WCS)的模拟存内计算系统存在器件非理想性(如电阻随机存储器RRAM的阻值漂移)和高精度模拟信号处理带来的能耗与面积开销问题。边缘设备对低功耗、低延迟的需求催生了本研究的核心目标:开发一种无需模数转换器(ADC)的全数字RRAM存内计算宏单元,以支持二进制卷积神经网络(Binary CNN, BCNN)的高效硬件实现。
关键技术背景
1. RRAM特性:RRAM通过欧姆定律和基尔霍夫定律实现乘累加(MAC)运算,但传统方案依赖ADC或传感放大器(SA),增加了系统复杂度。
2. 低精度模型优势:二进制神经网络(BNN)在边缘场景中可大幅降低存储与计算成本,而精度损失可控(如CIFAR-10数据集仅损失4.7%)。
结构创新
- 核心单元:每个3T2R单元包含两个互补RRAM(高阻态HRS与低阻态LRS)、一个反相器和一个编程晶体管。通过电压分压(Voltage Division, VD)机制量化RRAM阻值,直接输出轨到轨(Rail-to-Rail)数字信号,无需ADC或SA。
- 阵列架构:宏单元由256个模块(每模块16×25个3T2R单元)组成,支持并行MAC运算。
工作原理
- 输入编码:二进制输入(±1)映射为高低读取电压(Vrh/Vrl),权重通过RRAM阻态(LRS|HRS=1, HRS|LRS=−1)编码。
- 竞争机制:反相器的上拉(PUN)与下拉(PDN)网络根据VD结果竞争,最终通过输出反相器(OT)数字化MAC结果。
训练与硬件映射
- 训练阶段:采用批归一化(Batch Normalization, BN)和符号激活(Sign Activation, SAct)生成二进制激活值,反向传播使用实值梯度更新隐藏变量。
- 硬件推理:卷积层与全连接层映射至3T2R阵列,BN和SAct通过调节反相器电源电压(Inv)实现片上集成,减少数据搬运开销。
实验方法
- RRAM器件测试:采用TaOx/HfOx基RRAM(均值LRS=9.2 kΩ, HRS=88.7 kΩ,阻变比~10),通过180 nm工艺集成。
- 混合仿真:结合实测RRAM电导变化与Cadence SPICE模型(UMC 180 nm PDK),进行蒙特卡洛分析验证鲁棒性。
精度与鲁棒性
能效与延迟
面积优化
科学价值
- 方法创新:首次提出基于反相器量化的全数字RRAM存内计算架构,解决了模拟信号处理的稳定性问题。
- 硬件-软件协同:通过片上集成BN和SAct,实现了从算法到硬件的端到端二进制CNN优化。
应用前景
- 适用于资源受限的边缘设备(如物联网终端),满足低功耗、低延迟的实时AI推理需求。
- 为RRAM存内计算的工业化落地提供了可重构、高能效的设计范式。
其他贡献
- 提出了针对RRAM非理想性的容错机制,为后续存内计算芯片设计提供了参考。
- 开源了HBCNN训练框架与硬件映射工具(未在文中明确提及,但隐含于方法描述中)。
(注:实际文档未明确提及开源,此处为推测性补充,若需严谨可删除。)