分享自:

基于数论变换的深度卷积神经网络加速研究

期刊:ieee transactions on circuits and systems—i: regular papersDOI:10.1109/tcsi.2022.3214528

这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

作者及研究机构
本研究由Prasetiyo、Seongmin Hong、Yashael Faith Arthanto和Joo-Young Kim共同完成,他们均来自韩国科学技术院(KAIST)电气工程学院。研究发表于2023年1月的《IEEE Transactions on Circuits and Systems—I: Regular Papers》期刊上。

学术背景
卷积神经网络(Convolutional Neural Networks, CNNs)在图像分类、目标检测和医疗图像分析等领域取得了显著成就。然而,随着模型规模和复杂度的增加,卷积操作的计算负担成为主要瓶颈。现有的快速卷积算法,如快速傅里叶变换(Fast Fourier Transform, FFT)和Winograd变换,虽然能够减少乘法操作,但仍面临高计算开销、内存占用大以及核尺寸灵活性不足等问题。为解决这些问题,本研究提出了一种基于数论变换(Number Theoretic Transform, NTT)的CNN加速器,旨在通过低成本的域变换和优化的硬件架构,显著提升CNN的计算效率。

研究流程
研究分为以下几个主要步骤:

  1. 问题分析与目标设定
    研究首先分析了现有快速卷积算法的局限性,包括域变换开销高、内存占用大以及核尺寸灵活性不足等问题。研究目标是设计一种基于NTT的CNN加速器,通过低成本域变换和并行计算架构,解决上述问题并提升计算效率。

  2. NTT参数优化与低成本域变换设计
    研究团队通过优化NTT参数,将昂贵的模运算转化为简单的加法和移位操作,从而实现了低成本的域变换。具体而言,选择了满足特定条件的NTT参数,使得域变换可以在硬件中高效实现。

  3. 加速器架构设计
    研究提出了一种多引擎架构,包括多个瓦片引擎(Tile Engines)和优化的数据流映射。每个瓦片引擎包含NTT转换单元、处理单元(PE)阵列和逆NTT(INTT)转换单元。通过瓦片化数据流和并行计算,加速器能够高效处理输入和权重数据。

  4. 硬件实现与验证
    研究在Xilinx Alveo U50 FPGA上实现了所提出的NTT-based CNN加速器,并评估了其在VGG-16、GoogLeNet和Darknet-19等经典CNN模型上的性能。

  5. 性能评估与对比分析
    研究通过实验验证了加速器的性能,包括计算吞吐量和能效,并与现有的基于FFT和Winograd的加速器进行了对比。

主要结果
1. 低成本域变换的实现
通过优化NTT参数,研究成功将域变换的计算开销降低到仅需加法和移位操作,显著减少了硬件实现的复杂度。

  1. 加速器性能提升
    在FPGA上实现的NTT-based CNN加速器在VGG-16、GoogLeNet和Darknet-19模型上分别达到了2859.5、990.3和805.6 GOPS的吞吐量,较现有加速器最高提升了9.6倍。

  2. 能效优化
    加速器的平均功耗为26W,能效分别为110.0、38.1和31.0 GOPS/W,显著优于现有方案。

  3. 灵活性增强
    所提出的加速器支持多种核尺寸,包括1×1、3×3、5×5和7×7,并通过瓦片化数据流实现了高效的内存访问和并行计算。

结论
本研究提出的基于NTT的CNN加速器通过低成本的域变换和优化的硬件架构,显著提升了CNN的计算效率和能效。与现有基于FFT和Winograd的加速器相比,该方案在计算吞吐量、能效和灵活性方面均表现出色。研究结果为深度学习硬件加速领域提供了新的思路,并为实时目标检测和自动驾驶等应用场景提供了可行的解决方案。

研究亮点
1. 低成本域变换:通过优化NTT参数,将昂贵的模运算转化为简单的加法和移位操作,显著降低了硬件实现的复杂度。
2. 高性能加速器:在FPGA上实现了高效的NTT-based CNN加速器,较现有方案最高提升了9.6倍的计算吞吐量。
3. 灵活性增强:支持多种核尺寸,并通过瓦片化数据流实现了高效的内存访问和并行计算。

其他价值
该研究不仅为深度学习硬件加速提供了新的技术路径,还为未来支持更复杂卷积操作(如步幅大于1的卷积、转置卷积和扩张卷积)奠定了基础。此外,研究团队计划将该加速器应用于自动驾驶系统,以实现实时目标检测功能。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com