分享自:

一种采用嵌入式非易失性存储器且具备位感知损耗均衡功能的耐用型CIM加速器,用于边缘设备的高效轻量级片上训练

期刊:IEEE Transactions on Circuits and Systems—I: Regular PapersDOI:10.1109/TCSI.2024.3491736

针对边缘设备高效片上训练的EF-CIM:一种采用位感知磨损均衡的嵌入式非易失性存内计算加速器

本文为学术研究者介绍一项发表于IEEE Transactions on Circuits and Systems—I: Regular Papers(第72卷,第9期,2025年9月)的原创性研究工作。该研究由来自复旦大学集成电路与系统国家重点实验室的郭志望、蒋婧雯、陈德扬、方进贝、韩军、薛小勇(通讯作者)及曾晓洋教授,以及来自中国科学院微电子研究所的杨建国共同完成。论文标题为《EF-CIM: An Endurance Friendly CIM Accelerator Using Embedded NVM with Bit-Aware Wear Leveling for Efficient Light-Weight On-Chip Training in Edge Devices》。

一、 研究背景与目标 该研究主要聚焦于人工智能(AI)边缘计算领域,具体针对卷积神经网络(CNN)加速器的存内计算(Computing-in-Memory, CIM)架构。当前,基于嵌入式非易失性存储器(Nonvolatile Memory, NVM)如阻变存储器(ReRAM)、磁阻存储器(MRAM)等的CIM加速器,因其能效高、数据移动少、计算并行度高等优势,已成为实现CNN高效推理的理想选择。然而,边缘设备的部署环境常处于动态变化中,这就要求设备能够支持轻量级的片上训练以实现环境自适应。以往的CIM加速器主要面向推理任务,训练过程仍需在云端完成。这种离线训练模式存在数据传输延迟长、隐私数据泄露风险以及难以快速适应环境变化等问题。

因此,开发支持片上训练的CIM加速器具有重大意义。但实现这一目标面临两大核心挑战:首先,传统的权重映射方法导致反向传播(Backpropagation, BP)过程的计算效率低下,严重拖慢训练速度;其次,也是更为关键的,片上训练涉及海量的权重更新,其写入次数可能远超NVM有限的耐久度(Endurance),导致NVM加速失效、训练精度下降乃至训练失败。本研究旨在提出一种新型的、对NVM耐久度友好的CIM加速器,EF-CIM,以解决上述挑战,实现在边缘设备上高效、可靠的轻量级片上训练。

二、 研究流程与方法 本研究的核心工作流程围绕两项关键技术展开:位切分权重映射(Bit Split Weight Mapping, BSWM)和位感知磨损均衡(Bit-Aware Wear Leveling, BAWL)。

(一) 位切分权重映射(BSWM)方案的提出与验证 * 研究对象与问题分析:研究首先深入分析了传统CIM阵列中权重映射方式(即将一个多比特权重的所有比特连续存储在同一列中)在片上训练(特别是BP过程)中的效率瓶颈。BP过程需要在水平方向上进行乘积累加,而传统映射方式导致同一权重的不同比特分布在阵列的不同行,无法在一个周期内完成对多比特输入的并行计算,只能逐位进行,使得计算周期随权重精度呈线性增长,极大降低了训练速度。同时,这种比特连续存储的方式也不利于对不同更新频率的权重比特进行差异化管理。 * BSWM方案设计:针对此问题,研究团队提出了创新的BSWM方案。该方案的核心思想是将多比特权重“拆分”为独立的比特,并将其“交替”存储在不同的存储子阵列中。具体而言,研究者设计了一个“位切分权重单元”(Bit Split Weight Unit, BSWU)。每个BSWU包含多个子阵列,每个子阵列专门存储所有权重的某一位(例如,所有权重的最高有效位MSB存储在子阵列0,次高位存储在子阵列1,以此类推)。以一个3x3x8的滤波器(9个8比特权重)为例,BSWU包含8个子阵列,每个子阵列大小为9行x8列,分别存储权重的第7位到第0位。 * 数据流重构与效果验证:为配合BSWM,研究重新设计了前向传播(FF)和反向传播(BP)的数据流。分析表明,在FF过程中,由于是垂直方向累加,BSWM与传统映射的计算周期相同。然而,在BP过程中,BSWM的优势得以凸显:因为同一比特位的权重存储在同一子阵列的同一行,对多比特输入的计算可以在水平方向上并行完成。论文通过理论计算和图示对比,定量展示了BSWM的优势。例如,对于一个3x3x8滤波器计算9个梯度值(δ11-δ33),传统映射需要576个周期,而采用BSWM仅需72个周期,实现了8倍的加速。研究进一步绘制了不同权重精度下,BP过程延迟的对比图,清晰表明BSWM能将BP延迟从随精度线性增长变为基本恒定,显著提升了训练速度。此外,BSWM使得按比特位管理存储成为可能,为后续的磨损均衡技术奠定了基础。

(二) 位感知磨损均衡(BAWL)方案的提出与实现 * 研究对象与机制分析:第二个流程针对NVM耐久度瓶颈。研究首先深入分析了片上训练中权重写入操作的本质。通过对典型CNN网络(如VGG-8, VGG-16, ResNet等)进行训练模拟和统计分析,研究者发现一个关键现象:在量化感知训练中,相邻迭代间的权重更新量(ΔW)通常很小,更新主要发生在权重的低有效位(LSB),而高有效位(MSB)则很少改变。研究者定义了比特翻转概率(Bit Reversal Probability, BRP),即单次权重更新过程中,某个权重比特位发生实际翻转(需要写入操作)的概率。统计结果显示,对于8位权重,LSB的BRP比MSB高出约220倍,且所有比特位的BRP总体都很低(0.013%-2.878%)。这意味着,在传统的训练过程中,超过98%的NVM写入操作是在向存储器写入“未变化”的比特,造成了巨大的、不必要的NVM磨损。 * 验证写入(Verify Write)方法:基于上述发现,研究提出了BAWL方案的第一项技术——验证写入。其核心是在每次权重更新(Write Update, WU)过程中,加入一个“验证读取”步骤。具体电路方案包括一个电压模式感测放大器(Voltage-mode Sense Amplifier, VSA)和一个异或(XOR)门。在执行写入前,先读取NVM单元中当前存储的比特值,然后与待更新的新比特值进行比较。若两者相同,则跳过本次写入操作;若不同,才执行实际的写入。论文详细描述了实现该逻辑的四个子阶段(预充电、感测、比较、决策/跳过写入)的电路工作时序波形。实验评估表明,验证写入方法能够避免绝大多数不必要的写入操作。以VGG-8网络在CIFAR-10数据集上的训练为例,与传统训练相比,验证写入使MSB(第7位)的写入操作次数减少了5000倍,LSB(第0位)减少了20倍,大幅延长了NVM寿命。 * 块切换(Block Switch)方法:尽管验证写入显著降低了整体写入次数,但不同比特位之间的写入频率差异依然巨大(LSB写入次数仍是MSB的28倍),导致存储高、低有效位的存储块磨损不均。为此,BAWL方案引入了第二项技术——块切换。研究将BSWU中存储不同比特位的子阵列划分为逻辑上的“块”(Block)。在训练进行一定迭代次数后,系统有意识地交换高有效位块和低有效位块的功能。例如,初始时存储MSB的Block0与存储LSB的Block7交换角色,Block1与Block6交换,以此类推。这样,原先写入频繁的块(如存储LSB的块)在交换后将用于存储更新频率低的MSB,从而获得“休息”,而原先空闲的块则承担起频繁写入的任务。通过周期性的块切换,所有存储块的磨损得以均衡。研究通过数学公式建模了单次和多次训练场景下,结合块切换策略后的总写入操作次数,并推导出最优的切换次数(s)以最大化NVM支持的总训练次数(t)。仿真结果表明,块切换方法能在验证写入的基础上,进一步将NVM磨损降低2倍。

(三) EF-CIM加速器架构的集成与评估 * 系统架构实现:研究最后将BSWM和BAWL技术集成,设计并评估了完整的EF-CIM加速器。该加速器采用28纳米工艺,面向8位输入和8位权重进行设计。系统层级包含一个顶层控制器和四个训练核心。每个训练核心包含64个处理单元(Processing Element, PE)、输入/输出缓冲区、验证写入电路以及模数转换器(ADC)等。每个PE的核心是一个采用BSWM的PE阵列(包含8个BSWU,总计1.2 Mb的存储容量),并集成了BAWL训练控制器、字线/源线/位线驱动器、用于FF/BP的ADC以及移位加法器等。 * 工作流程整合:加速器的工作流程整合了推理和训练的所有步骤:1) 初始化:通过BSWM将权重写入阵列。2) FF过程:输入从位线(BL)输入,电流在源线(SL)垂直累加,经ADC量化后由加法树汇总。3) BP过程:输入从SL输入,电流在BL水平累加,同样经量化汇总。BSWM确保了BP的高效水平累加。4) 梯度计算(GC):通过移位和加法树完成。5) 权重更新(WU):集成验证写入电路,先读后比,避免无效写入。6) 磨损均衡:由BAWL控制器在适当时机触发块切换操作。整个架构实现了推理与训练的资源复用。

三、 主要研究结果 1. 训练速度显著提升:得益于BSWM,EF-CIM加速器在BP过程中实现了高并行度。评估结果显示,对于8位输入和权重,EF-CIM在BP过程中实现了~3.26 TOPS/W的能效,峰值性能达到~288 GOPS。相比传统的1T1R CIM ReRAM设计,BP能效提升了约4.8倍。更重要的是,BP过程的访问延迟被压缩至15纳秒以内,比传统设计快了5倍。 2. NVM耐久度大幅改善:BAWL技术效果显著。首先,验证写入避免了98%以上的不必要写入操作。其次,结合块切换后,NVM的磨损在块级别得到了有效均衡。研究使用实测耐久度可达10^7次的28纳米ReRAM器件进行评估。结果显示,对于不同的CNN网络(VGG-8, VGG-16, ResNet-18, ResNet-50),EF-CIM所能支持的完整训练次数,相比传统设计至少提升了40倍。这意味着在相同硬件条件下,EF-CIM的寿命或可靠训练能力获得了数量级的增长。 3. 整体性能与面积功耗分析:EF-CIM在FF过程中也能达到~3.58 TOPS/W的能效。对于1位输入和权重,其FF/BP能效分别高达229.12208.64 TOPS/W。在面积和功耗方面,ADC占据了总面积的41.2%和总能耗的79.6%,这主要是因为EF-CIM使用了更多的ADC来压缩训练延迟,以满足机器人、增强现实/虚拟现实(AR/VR)等对快速响应有要求的应用。研究也指出,EF-CIM可以通过减少ADC数量来适配低功耗应用,展现了设计的灵活性。 4. 训练精度与误差率:研究以LeNet网络在MNIST数据集和VGG-8在CIFAR-10数据集上的训练为例,验证了EF-CIM的有效性。在达到相近推理精度(LeNet: 96%, VGG-8: 90%)的前提下,EF-CIM所需的实际权重更新次数(WU times)远低于传统训练(LeNet: 487 vs 20k; VGG-8: 2k vs 100k)。同时,基于实测ReRAM器件变异性的仿真显示,加速器的错误率在可接受范围内。

四、 研究结论与价值 本研究成功提出并验证了EF-CIM加速器。其核心贡献在于:1) 通过位切分权重映射(BSWM) 创新性地重构了CIM阵列的存储和计算数据流,解决了片上训练中反向传播的计算效率瓶颈,大幅提升了训练速度。2) 通过位感知磨损均衡(BAWL) 技术(包含验证写入和块切换),深刻洞察并利用了训练中权重更新的统计特性,智能地减少了不必要的NVM写入并均衡了磨损,将NVM的寿命或可靠训练能力提升了40倍以上,从根本上解决了NVM有限耐久度对片上训练的制约。

这项工作的科学价值在于为基于NVM的存内计算架构实现高效、可靠的片上训练提供了系统性的解决方案,涵盖了从算法特性分析、电路技术创新到系统架构设计的完整链条。其应用价值巨大,使得AI边缘设备能够真正实现本地化、自适应、低延迟且保护隐私的持续学习,将广泛应用于智能物联网、自动驾驶、AR/VR、智能医疗设备等对实时性和安全性要求高的领域。

五、 研究亮点 1. 问题洞察深刻:研究不仅指出了NVM耐久度这一表象挑战,更深入挖掘了其根源——训练中权重更新的比特位不对称特性,并对此进行了定量统计(BRP),为解决方案提供了坚实的数据基础。 2. 方法创新性强:BSWM和BAWL均是针对问题本质提出的创新性技术。BSWM通过“拆分”与“交替存储”这一巧思,同时解决了计算效率和存储管理的问题。BAWL将存储器管理中的“磨损均衡”思想与神经网络训练的动态特征相结合,提出了“位感知”和“验证写入”的具体实现。 3. 系统集成完整:研究并非停留在概念或仿真层面,而是给出了完整的加速器架构设计、详细的电路方案(如验证写入电路)以及在28纳米工艺下的评估结果,展示了技术的可实现性和卓越性能。 4. 解决方案协同:BSWM与BAWL并非孤立,BSWM为BAWL的“位感知”管理提供了物理基础,两者协同工作,共同实现了高速、高可靠片上训练的目标。

六、 其他有价值内容 论文在引言部分清晰梳理了从仅支持推理的CIM到支持片上训练的CIM的需求演进,并指出了离线训练的三大弊端(延迟、安全、适应性),强化了研究动机。此外,研究对比了多种NVM(ReRAM, MRAM, PCRAM, FeRAM, Flash)的典型耐久度数据,说明了挑战的普遍性。在与同类工作的对比表中,EF-CIM在训练速度、能效和NVM磨损控制方面均展现出领先优势,凸显了其综合性能的先进性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com