这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于RRAM的二进制卷积神经网络宏单元在微型AI边缘设备中的应用研究
作者及机构
本研究的核心团队来自中国多所高校及科研机构:
- Lixun Wang(博士生,IEEE学生会员)、Yuejun Zhang(IEEE会员)、Huihong Zhang(IEEE会员)、Qikang Li(博士生)来自宁波大学电气工程与计算机科学学院;
- Pengjun Wang(IEEE会员)、Gang Li(IEEE会员)来自温州大学电气与电子工程学院;
- Jianguo Yang(IEEE会员)来自中国科学院微电子研究所。
研究成果发表于IEEE Transactions on Very Large Scale Integration (VLSI) Systems期刊2025年2月刊(第33卷第2期),文章标题为《A 578-TOPS/W RRAM-Based Binary Convolutional Neural Network Macro for Tiny AI Edge Devices》。
学术背景
研究领域与动机
本研究属于存内计算(Computing-in-Memory, CIM)与边缘AI硬件加速的交叉领域。随着卷积神经网络(CNN)在边缘设备中的广泛应用,传统架构面临计算成本高、功耗大和存储需求激增的挑战。尽管非易失性存内计算(NVCIM)技术通过原位存储与处理数据提供了解决方案,但现有基于模拟电流加权求和的方法受限于器件非理想性(如电阻随机存取存储器RRAM的电阻漂移)以及高精度模拟信号处理带来的时间和能耗开销。
研究目标
团队提出了一种基于RRAM的二进制卷积神经网络(BCNN)全硬件电路,旨在通过低权重精度加速边缘AI应用。其核心创新包括:
1. 利用RRAM实现二进制卷积的数字化存内计算,避免模拟信号处理的固有缺陷;
2. 通过电路级误差补偿和轨到轨输出稳定性设计,消除模数转换器(ADC)和外部处理器的辅助计算需求;
3. 在CIFAR-10和MNIST数据集上验证硬件系统的识别精度与能效。
研究流程与方法
1. RRAM-XNOR单元设计
- 结构:提出一种2T2R(2晶体管-2电阻)单元,包含交叉耦合管电路、XNOR输入电路和RRAM电阻调节电路。
- 工作模式:
- 存储阶段:通过共享晶体管N3独立调控RRAM的电阻状态(高阻态HRS或低阻态LRS),将卷积核权重映射为二进制值(1对应LRS/HRS组合,0反之)。
- 计算阶段:利用RRAM的漏电路径差异实现XNOR逻辑,输入信号与权重通过放电速度差异触发交叉耦合管的双稳态输出,单次逻辑操作时间<0.1 ns。
- 创新点:取消预充电操作,通过电极交换设计(将高阻分支电压差固定为正向)实现误差补偿,抵抗RRAM电阻漂移。
2. 阵列架构与并行计算
- 阵列组织:采用m×2l规模的RRAM阵列(如64×128),每个子阵列由多个32×32模块拼接而成,支持并行电阻调节和卷积核映射。
- 计算流程:输入矩阵与卷积核通过XNOR操作生成中间结果,经比特计数(Bitcount)电路统计“1”的数量,最终输出卷积结果。阵列单周期完成大规模并行计算,吞吐量达320 GOPS。
3. 比特计数电路优化
- FPGA实现:将128位输入分为4位子模块,减少硬件开销(从272 ALUTs降至3 ALUTs/子模块),延迟1.33 ns,峰值功耗71.20 μW。
4. 全硬件BCNN系统集成
- 网络架构:包含2个卷积层和2个池化层,激活函数为ReLU,通过离线训练量化模型权重。
- 预处理:对训练集图像施加旋转、缩放和噪声增强,提升硬件鲁棒性。
- 实验验证:在FPGA控制下实现从数据采集、RRAM点积到识别的全流程硬件化,无处理器干预。
主要结果
1. 电路性能
- XNOR单元单次操作时间0.095 ns,比预充电架构快21.05%;
- 蒙特卡洛模拟显示,RRAM电阻漂移容忍度高(HRS降至159kΩ或LRS升至12kΩ仍无逻辑错误)。
识别精度
能效比
结论与价值
科学价值
1. 首次实现完全数字化、无ADC/处理器的RRAM-BCNN硬件架构,为边缘AI提供了高能效解决方案;
2. 通过电路级补偿和阵列优化,解决了RRAM电阻漂移和模拟计算噪声的固有难题。
应用价值
该宏单元适用于智能家居语音唤醒(KWS)、边缘摄像头异常检测(VAD)等低功耗场景,其模块化设计支持灵活扩展至高比特位宽应用。
研究亮点
1. 方法创新:
- 提出2T2R XNOR单元,结合数字电路鲁棒性与RRAM非易失性;
- 首创“电极交换”误差补偿技术,抵抗工艺偏差。
2. 性能突破:
- 能效比578 TOPS/W为当前领域最高水平之一;
- 全硬件架构精度损失%,优于依赖模拟计算的方案。
3. 系统完整性:从单元设计到阵列集成,最终实现端到端的硬件验证,为存内计算芯片设计提供范本。
其他价值
研究得到中国国家重点研发计划(2022ZD0118903)、国家自然科学基金(62474100等)支持,芯片制造工艺细节(如RRAM的1.6 V成形电压)为工业界提供了实用参考。
(报告总字数:约1800字)