分享自:

28纳米CMOS工艺中具有错误检测功能的能效时域二进制神经网络加速器

期刊:The 2020 IEEE Asia Pacific Conference on Circuits and Systems (APCCAS)

类型a:学术研究报告

作者及机构
本研究的核心作者为东南大学电子科学与工程学院的Yuxuan Du、Xinchao Shang和Weiwei Shan*(通讯作者)。论文发表于2020年IEEE Asia Pacific Conference on Circuits and Systems (APCCAS),标题为《An Energy-Efficient Time-Domain Binary Neural Network Accelerator with Error-Detection in 28nm CMOS》。

学术背景
随着物联网(IoT)和移动设备对高能效处理器的需求增长,传统高精度神经网络加速器因占用大量片上/片外资源且功耗过高,已不适用于边缘计算场景。二元神经网络(Binary Neural Networks, BNNS)通过将权重和激活值量化为+1/-1,显著降低了内存需求和计算复杂度,从而提升了能效。然而,工艺-电压-温度(PVT)变异问题,尤其是在近阈值电压(Near-Threshold Voltage, NTV)区域,对硬件可靠性提出了挑战。本研究旨在设计一种基于时间域(Time-Domain, TD)混合信号处理的BNN加速器,结合自适应电压调节(Adaptive Voltage Scaling, AVS)和容错计算技术,实现高能效与鲁棒性的平衡。

研究流程与方法
1. 架构设计
- 核心模块:提出时间域乘累加单元(TD-MAC),利用模拟延迟线(Analog Delay Line)实现XNOR和累加操作。TD-MAC链由64个单元组成,支持卷积层(CLs)和全连接层(FCLs)的并行计算,利用率达100%。
- 容错机制:集成基于Razor技术的错误检测器(Error Detector, ED),实时监测时序违规,并通过TD-MAC链截断(Truncation)实现近似计算,避免传统纠错电路的开销。
- 自适应电压调节:AVS系统根据ED反馈动态调整电压(0.42V–0.9V),在保证精度的前提下降低功耗。

  1. 芯片实现

    • 工艺与规格:采用28nm CMOS工艺,芯片面积2.592mm²,集成32KB SRAM(14KB特征存储+18KB权重存储)。
    • 测试条件:在85℃、10%电压波动和3σ工艺变异的最坏情况下,基准频率为425MHz(0.9V)。
  2. 实验与数据分析

    • 电压缩放实验:在425MHz下,电压从0.9V降至0.77V时,MNIST数据集分类精度无损失,功耗降低18.5%;继续降至0.42V时,能效达51.5TOPS/W(99.86%精度)。
    • 链截断优化:当TD-MAC链从64单元截断至44单元时,功耗进一步降低13.2%,精度保持90%。

主要结果
1. 能效与功耗:在0.42V/25MHz下,功耗0.28mW,能效51.5TOPS/W;在0.9V/500MHz下,功耗48.6mW,能效6.17TOPS/W。
2. 容错性能:AVS系统在0.77V时完全容忍时序错误,无需纠错机制;链截断技术为近似计算提供了新思路。
3. 对比优势:与同类工作(如[4]的混合信号CNN处理器)相比,本设计在能效(51.5 vs. 772TOPS/W)和电压范围(0.42V–0.9V vs. 0.53V–0.8V)上表现更优(详见表I)。

结论与价值
本研究提出了一种创新的时间域BNN加速器,通过TD-MAC链和AVS系统实现了高能效与鲁棒性的统一。其科学价值在于:
1. 方法学创新:首次将时间域模拟计算与BNN结合,解决了宽向量求和的硬件挑战。
2. 应用潜力:适用于IoT设备中的实时图像识别,如MNIST分类任务(99.6%精度)。
3. 工程启示:为近似计算和容错设计提供了可扩展的框架,未来可扩展至更复杂网络(如ResNet)。

研究亮点
1. 混合信号设计:TD-MAC利用延迟线相位差替代数字累加器,降低功耗。
2. 动态电压调节:AVS系统突破传统静态电压裕度,实现“按需供能”。
3. 算法-硬件协同优化:通过BNN的固有容错性,将时序错误转化为功耗优化机会。

其他价值
本研究受中国国家自然科学基金(62074035)和航空科学基金(2017436901)支持,芯片实测数据为边缘计算芯片设计提供了可靠参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com