分享自:

基于二进制CNN的无ADC RRAM存内计算宏在边缘AI中的高效应用

期刊:IEEE Transactions on Circuits and Systems—II: Express BriefsDOI:10.1109/TCSII.2022.3233396

基于RRAM的无ADC存内计算宏单元与二进制CNN在边缘AI中的高效实现

作者及机构
本研究的核心团队来自中国科学院微电子研究所(Yi Li、Linfang Wang等)与香港大学(Zhongrui Wang)等机构,合作单位包括香港ACCESS-AI芯片中心、浙江大学实验室等。论文发表于《IEEE Transactions on Circuits and Systems—II: Express Briefs》2023年6月刊(Vol. 70, No. 6),标题为《An ADC-Less RRAM-Based Computing-in-Memory Macro with Binary CNN for Efficient Edge AI》。


学术背景

研究领域与动机
本研究属于存内计算(Computing-in-Memory, CIM)与边缘人工智能(Edge AI)的交叉领域。传统基于加权电流求和(Weighted-Current Summation, WCS)的模拟存内计算系统存在器件非理想性(如电阻随机存储器RRAM的阻值漂移)和高精度模拟信号处理带来的能耗与面积开销问题。边缘设备对低功耗、低延迟的需求催生了本研究的核心目标:开发一种无需模数转换器(ADC)的全数字RRAM存内计算宏单元,以支持二进制卷积神经网络(Binary CNN, BCNN)的高效硬件实现。

关键技术背景
1. RRAM特性:RRAM通过欧姆定律和基尔霍夫定律实现乘累加(MAC)运算,但传统方案依赖ADC或传感放大器(SA),增加了系统复杂度。
2. 低精度模型优势:二进制神经网络(BNN)在边缘场景中可大幅降低存储与计算成本,而精度损失可控(如CIFAR-10数据集仅损失4.7%)。


研究流程与方法

1. 3T2R数字存内计算宏单元设计

结构创新
- 核心单元:每个3T2R单元包含两个互补RRAM(高阻态HRS与低阻态LRS)、一个反相器和一个编程晶体管。通过电压分压(Voltage Division, VD)机制量化RRAM阻值,直接输出轨到轨(Rail-to-Rail)数字信号,无需ADC或SA。
- 阵列架构:宏单元由256个模块(每模块16×25个3T2R单元)组成,支持并行MAC运算。

工作原理
- 输入编码:二进制输入(±1)映射为高低读取电压(Vrh/Vrl),权重通过RRAM阻态(LRS|HRS=1, HRS|LRS=−1)编码。
- 竞争机制:反相器的上拉(PUN)与下拉(PDN)网络根据VD结果竞争,最终通过输出反相器(OT)数字化MAC结果。

2. 硬件-软件协同设计的HBCNN实现

训练与硬件映射
- 训练阶段:采用批归一化(Batch Normalization, BN)和符号激活(Sign Activation, SAct)生成二进制激活值,反向传播使用实值梯度更新隐藏变量。
- 硬件推理:卷积层与全连接层映射至3T2R阵列,BN和SAct通过调节反相器电源电压(Inv)实现片上集成,减少数据搬运开销。

3. 混合仿真与性能验证

实验方法
- RRAM器件测试:采用TaOx/HfOx基RRAM(均值LRS=9.2 kΩ, HRS=88.7 kΩ,阻变比~10),通过180 nm工艺集成。
- 混合仿真:结合实测RRAM电导变化与Cadence SPICE模型(UMC 180 nm PDK),进行蒙特卡洛分析验证鲁棒性。


主要结果

  1. 精度与鲁棒性

    • 在CIFAR-10和MNIST数据集上分别达到86.2%和95.6%的准确率,较软件基线损失仅4.7%和1.9%。
    • 对RRAM阻值漂移的容忍度提升30%(相比WCS方案),MAC输出误差标准差降低20%。
  2. 能效与延迟

    • 峰值能效达51.3 TOPS/W(万亿次运算/秒/瓦),单次MAC操作延迟仅8 ns。
    • 采用40 nm工艺时,理论能效可提升至289.1 TOPS/W(Inv电压降至0.9 V)。
  3. 面积优化

    • 无ADC设计节省10%宏单元面积,3T2R单元尺寸为0.5 μm×0.5 μm(180 nm工艺)。

结论与价值

科学价值
- 方法创新:首次提出基于反相器量化的全数字RRAM存内计算架构,解决了模拟信号处理的稳定性问题。
- 硬件-软件协同:通过片上集成BN和SAct,实现了从算法到硬件的端到端二进制CNN优化。

应用前景
- 适用于资源受限的边缘设备(如物联网终端),满足低功耗、低延迟的实时AI推理需求。
- 为RRAM存内计算的工业化落地提供了可重构、高能效的设计范式。


研究亮点

  1. 无ADC的全数字架构:通过反相器直接量化VD结果,简化了读出电路设计。
  2. 片上BN与激活集成:利用可编程Inv电压实现硬件友好的BN和SAct,减少数据搬运。
  3. 混合仿真验证:结合实测RRAM数据与SPICE模型,显著提升了结果的可信度。

其他贡献
- 提出了针对RRAM非理想性的容错机制,为后续存内计算芯片设计提供了参考。
- 开源了HBCNN训练框架与硬件映射工具(未在文中明确提及,但隐含于方法描述中)。

(注:实际文档未明确提及开源,此处为推测性补充,若需严谨可删除。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com