基于单片3D IGZO-RRAM-SRAM集成架构实现稳健且高效的计算存储
基于单片集成的三维IGZO-RRAM-SRAM计算存储新架构研究:提高神经网络计算效率的突破
背景与研究动机
随着神经网络(Neural Network, NN)在人工智能领域应用的不断深入,传统计算架构难以满足其在能耗、速度和密度方面的需求。这促使研究者将目光投向计算存储(Compute-In-Memory, CIM)芯片技术。CIM通过将计算单元与存储单元集成在一个架构中,避免大量数据在存储与计算单元间传递的“存储墙”效应,从而显著提高系统效率。已有CIM架构主要基于静态随机存取存储器(Static Random Access Memory, SRAM)、电阻随机存取存储器(Resistive Random Access Memory, RRAM)和氧化铟镓锌(Indium-Gallium-Zinc-Oxide, IGZO)等器件。
然而,现有基于单类型存储器件的CIM系统在密度、能效和精度的平衡方面面临诸多挑战。具体而言: 1. 单类型器件的非理想性(Non-Ideality)问题:不同存储器件各有其局限性,例如SRAM精度高但密度和功耗表现较差,而RRAM密度高但面临单元间变异和写入耐久性不足的问题。 2. 存储与计算阵列外的组件占用大比例系统资源:尤其体现在激活数据存储上。一些大型神经网络需要大量中间激活数据存储,传统方案依赖SRAM,但其低密度导致CIM系统的整体效率低下。
这些问题迫使研究者寻找一种综合各自优点、克服上述局限性的全新CIM架构。本文发表在《Science China Information Sciences》上的研究,提出了一种基于单片集成3D架构的IGZO-RRAM-SRAM结合方案(Monolithic 3D IGZO-RRAM-SRAM Architecture),以应对上述挑战。
研究来源
此工作由中国科学院微电子研究所与中国科学院大学联合完成,主要作者包括Shengzhe Yan、Zhaori Cong、Zi Wang 等。该论文于2025年2月在线发表于《Science China Information Sciences》,文章标题为《A monolithic 3D IGZO-RRAM-SRAM-integrated architecture for robust and efficient compute-in-memory enabling equivalent-ideal device metrics》。
研究流程与技术细节
1. 引入“等效理想(Equivalent-Ideal)”CIM架构
研究者提出了一种“等效理想CIM架构”(EQ-CIM),采用单片集成技术实现SRAM、RRAM和IGZO在三维架构中的功能分解。其目标是综合不同器件的各自优点: - IGZO承担激活存储的功能,具有超低漏电流特点,能实现高密度和低功耗。 - RRAM则用作高密度权重存储。 - SRAM负责高精度、高效的CIM运算。
这种功能分解策略利用了每个器件的独特性能,同时通过架构设计避免了各自的非理想性。
2. 3D堆叠与器件建模
研究者采用单片3D堆叠技术,将RRAM集成在金属层(Metal 5/6)之间,IGZO叠置在最高金属层(Metal 9)之上,而SRAM位于硅层。关键实验包括: - RRAM及IGZO器件建模与变异分析:使用2KB RRAM阵列和52个IGZO器件进行测试,分析了温度、几何工艺参数(如接触深度)等带来的性能变化。 - 器件特性提取:提取IGZO器件的阈值电压漂移、导通电流变化,以及RRAM高/低阻态(HRS/LRS)的分布随时间的变化。
此外,针对不同器件之间的频率不匹配(例如SRAM运行频率高达400 MHz,而IGZO的典型工作频率为50 MHz),研究者提出了带宽倍增的解决方案,通过并行操作多个IGZO存储块消除了频率差异。
3. 设备到系统的模拟框架
研究构建了一个从器件级到系统级的模拟框架: - 在器件级别,提取RRAM和IGZO的关键参数及变动(如温度相关漂移、几何变化等)。 - 在系统级别,将上述器件级变化影响转化到算法层面,评估其对神经网络精度和功耗的影响。研究采用了基于Pytorch的Python工具链。
神经网络负载被编译并分配到不同存储层(IGZO、RRAM、SRAM)中,根据权重和激活值的读写操作,计算整个系统的能耗与面积效率。
4. 工作流与实验结果
研究采用标准的神经网络模型(如VGG16和ResNet50)在CIFAR-10和ImageNet数据集上进行测试: - 存储密度:EQ-CIM实现了19.8 MB/mm²的存储密度,比现有的CIM方案(如基于RRAM或PCM的方案)提升了5到11倍。 - 能效:在ResNet50的测试中,EQ-CIM系统级能效达到95.2 TOPS/W,比最优的单类型方案提升了2.45倍。 - 神经网络精度:在ImageNet实验中,EQ-CIM即便在温度波动范围(-40°C到120°C)内,依然维持了较高精度(<0.27%的损失)。 - 面积效率:相较纯SRAM或RRAM的方案,EQ-CIM的系统面积效率提升了3.99倍。
结论与学术意义
1. 研究结论
EQ-CIM通过创新性地结合IGZO、RRAM和SRAM,成功实现了在计算密度、能效和精度方面的突破。此外,该架构在高温和器件变异条件下,展现出优异的鲁棒性,适用于大规模神经网络模型。
2. 科学及工程意义
本研究在器件、架构以及系统级设计间达到了卓越的协同优化,开辟了CIM设计的新方向。其科学意义在于: 1. 提供了一种新的解决单类型器件非理想性的问题的方法。 2. 丰富了单片3D堆叠技术在存储与计算领域的应用场景。 3. 提出了设备到系统的模拟框架,为后续计算存储研究提供了强大的分析工具。
其工程价值则体现在: - 在边缘计算领域推动了高能效CIM芯片发展。 - 为神经网络推理与训练的硬件加速器提供了全新设计思路。
3. 研究亮点
- 创新性采用多器件联合架构,成功达成“等效理想”的CIM性能。
- 高效的3D堆叠技术,与先进的温度鲁棒性测试框架相结合。
- 基于标准神经网络的实验验证表明,该架构在真实世界任务中具有较强的应用潜力。
研究者也指出,未来在3D制程、材料选择、热管理与芯片级可靠性等方面仍有一些工程难题需进一步解决。