这篇文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:
本文的主要作者包括Jiahao Lu、Dongsheng Liu(IEEE高级会员)、Xuan Cheng、Lai Wei、Ang Hu和Xuecheng Zou,他们均来自华中科技大学光学与电子信息学院。该研究发表于2022年11月的《IEEE Transactions on Circuits and Systems—I: Regular Papers》期刊,第69卷第11期。
本研究的主要科学领域是卷积神经网络(CNN)在可穿戴设备中的心电图(ECG)分类应用。随着深度学习技术的发展,CNN在心电图分类中展现出显著的前景。然而,由于硬件资源有限和权重分布随机性,将现有的剪枝神经网络高效部署到可穿戴设备中仍然是一个巨大的挑战。为此,本文提出了一种高效的非结构化稀疏CNN加速器,旨在解决这一问题。研究的背景知识包括卷积神经网络的基本原理、剪枝技术以及心电图分类的应用需求。研究的目标是设计一种能够在资源有限的可穿戴设备中高效运行的CNN加速器,并提高计算效率和分类精度。
本研究包括以下几个主要步骤:
数据流设计与压缩格式:提出了一种基于“tile-first”的数据流,并设计了压缩数据存储格式。该数据流通过跳过零权重乘法来提高计算效率,特别是在处理大规模稀疏的小型模型时。数据流中的两级权重索引匹配结构利用移位操作选择有效数据对,并保持全流水线计算过程。
可配置处理单元(PE)阵列:设计了一个可配置的PE阵列,支持32位指令控制,以提高加速器的灵活性。PE阵列由四个12级级联PE结构组成,每个PE在一个周期内完成一次乘法和加法操作。
硬件架构实现:在Xilinx ZC706平台和SMIC 40nm工艺上实现了该加速器,并进行了验证和后综合仿真。实验结果表明,该加速器在2MHz时钟频率下每分类消耗3.93µJ能量,平均心电图分类准确率达到98.99%,计算效率为118.75%,比密集基线提高了48%。
剪枝策略与模型训练:基于TensorFlow实现了非结构化剪枝技术,使用多项式衰减剪枝计划逐步增加稀疏度。通过训练不同目标稀疏度(0%到90%)的1D CNN模型,评估了模型的准确率、灵敏度、特异性和阳性预测值等指标。实验表明,70%的目标稀疏度是最适合可穿戴设备的稀疏度。
FPGA和ASIC实现:在Xilinx Zynq ZC706 FPGA板上实现了该加速器,并在SMIC 40nm工艺上进行了ASIC实现。FPGA实现结果表明,硬件分类准确率仅比软件推理低0.1%,且能量效率显著优于其他相关工作。ASIC实现的布局面积为2.044 mm²,最大可合成时钟频率为400 MHz,但在2MHz时钟频率下,每分类消耗3.93µJ能量,适合实时心电图分类。
数据流与压缩格式:提出的“tile-first”数据流和压缩数据存储格式有效提高了计算效率,特别是在处理大规模稀疏的小型模型时。压缩格式在稀疏度大于23.8%时表现出有效的压缩效果。
PE阵列与硬件架构:可配置PE阵列支持灵活的流水线处理,能够在不同池化类型、核大小和特征图数量下进行高效计算。两级权重索引匹配结构通过移位操作选择有效数据对,减少了硬件资源消耗。
剪枝策略与模型性能:非结构化剪枝技术在70%的目标稀疏度下,模型分类准确率保持在98.99%,且计算效率显著提高。实验结果表明,该剪枝策略适合资源有限的可穿戴设备。
FPGA与ASIC实现:FPGA实现结果表明,硬件分类准确率仅比软件推理低0.1%,且能量效率显著优于其他相关工作。ASIC实现的布局面积为2.044 mm²,最大可合成时钟频率为400 MHz,但在2MHz时钟频率下,每分类消耗3.93µJ能量,适合实时心电图分类。
本研究提出了一种高效且灵活的非结构化稀疏CNN加速器,特别适用于可穿戴心电图分类设备。通过“tile-first”数据流、压缩数据存储格式、可配置PE阵列和两级权重索引匹配结构,该加速器在计算效率和能量效率上均表现出色。实验结果表明,该加速器在70%稀疏度下实现了98.99%的分类准确率,计算效率达到118.75%,比密集基线提高了48%。该研究为资源有限的可穿戴设备提供了一种高效的心电图分类解决方案,具有重要的科学和应用价值。
高效数据流与压缩格式:提出的“tile-first”数据流和压缩数据存储格式有效提高了计算效率,特别是在处理大规模稀疏的小型模型时。
可配置PE阵列:设计的可配置PE阵列支持灵活的流水线处理,能够在不同池化类型、核大小和特征图数量下进行高效计算。
两级权重索引匹配结构:通过移位操作选择有效数据对,减少了硬件资源消耗,并保持了全流水线计算过程。
非结构化剪枝技术:在70%的目标稀疏度下,模型分类准确率保持在98.99%,且计算效率显著提高,适合资源有限的可穿戴设备。
FPGA与ASIC实现:在Xilinx Zynq ZC706 FPGA板和SMIC 40nm工艺上实现了该加速器,实验结果表明,硬件分类准确率仅比软件推理低0.1%,且能量效率显著优于其他相关工作。
本文还详细介绍了剪枝技术的背景和分类,包括细粒度剪枝、点级剪枝、通道级剪枝和滤波器级剪枝等。这些剪枝技术在硬件实现中的优缺点也被详细讨论,为非结构化剪枝技术在可穿戴设备中的应用提供了理论支持。此外,本文还对比了其他相关工作,进一步证明了该加速器在计算效率和能量效率上的优势。