基于数论变换的深度卷积神经网络加速研究

分享自：

基于数论变换的深度卷积神经网络加速研究

人工智能

工程学

信息科学

电气科学与工程

计算机科学

期刊:ieee transactions on circuits and systems—i: regular papersDOI:10.1109/tcsi.2022.3214528

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，即报告了一项原创性研究。以下是对该研究的学术报告：
作者及研究机构
 本研究由Prasetiyo、Seongmin Hong、Yashael Faith Arthanto和Joo-Young Kim共同完成，他们均来自韩国科学技术院（KAIST）电气工程学院。研究发表于2023年1月的《IEEE Transactions on Circuits and Systems—I: Regular Papers》期刊上。
学术背景
 卷积神经网络（Convolutional Neural Networks, CNNs）在图像分类、目标检测和医疗图像分析等领域取得了显著成就。然而，随着模型规模和复杂度的增加，卷积操作的计算负担成为主要瓶颈。现有的快速卷积算法，如快速傅里叶变换（Fast Fourier Transform, FFT）和Winograd变换，虽然能够减少乘法操作，但仍面临高计算开销、内存占用大以及核尺寸灵活性不足等问题。为解决这些问题，本研究提出了一种基于数论变换（Number Theoretic Transform, NTT）的CNN加速器，旨在通过低成本的域变换和优化的硬件架构，显著提升CNN的计算效率。
研究流程
 研究分为以下几个主要步骤：
问题分析与目标设定
 研究首先分析了现有快速卷积算法的局限性，包括域变换开销高、内存占用大以及核尺寸灵活性不足等问题。研究目标是设计一种基于NTT的CNN加速器，通过低成本域变换和并行计算架构，解决上述问题并提升计算效率。
NTT参数优化与低成本域变换设计
 研究团队通过优化NTT参数，将昂贵的模运算转化为简单的加法和移位操作，从而实现了低成本的域变换。具体而言，选择了满足特定条件的NTT参数，使得域变换可以在硬件中高效实现。
加速器架构设计
 研究提出了一种多引擎架构，包括多个瓦片引擎（Tile Engines）和优化的数据流映射。每个瓦片引擎包含NTT转换单元、处理单元（PE）阵列和逆NTT（INTT）转换单元。通过瓦片化数据流和并行计算，加速器能够高效处理输入和权重数据。
硬件实现与验证
 研究在Xilinx Alveo U50 FPGA上实现了所提出的NTT-based CNN加速器，并评估了其在VGG-16、GoogLeNet和Darknet-19等经典CNN模型上的性能。
性能评估与对比分析
 研究通过实验验证了加速器的性能，包括计算吞吐量和能效，并与现有的基于FFT和Winograd的加速器进行了对比。
主要结果
 1. 低成本域变换的实现
 通过优化NTT参数，研究成功将域变换的计算开销降低到仅需加法和移位操作，显著减少了硬件实现的复杂度。
加速器性能提升
 在FPGA上实现的NTT-based CNN加速器在VGG-16、GoogLeNet和Darknet-19模型上分别达到了2859.5、990.3和805.6 GOPS的吞吐量，较现有加速器最高提升了9.6倍。
能效优化
 加速器的平均功耗为26W，能效分别为110.0、38.1和31.0 GOPS/W，显著优于现有方案。
灵活性增强
 所提出的加速器支持多种核尺寸，包括1×1、3×3、5×5和7×7，并通过瓦片化数据流实现了高效的内存访问和并行计算。
结论
 本研究提出的基于NTT的CNN加速器通过低成本的域变换和优化的硬件架构，显著提升了CNN的计算效率和能效。与现有基于FFT和Winograd的加速器相比，该方案在计算吞吐量、能效和灵活性方面均表现出色。研究结果为深度学习硬件加速领域提供了新的思路，并为实时目标检测和自动驾驶等应用场景提供了可行的解决方案。
研究亮点
 1. 低成本域变换：通过优化NTT参数，将昂贵的模运算转化为简单的加法和移位操作，显著降低了硬件实现的复杂度。
 2. 高性能加速器：在FPGA上实现了高效的NTT-based CNN加速器，较现有方案最高提升了9.6倍的计算吞吐量。
 3. 灵活性增强：支持多种核尺寸，并通过瓦片化数据流实现了高效的内存访问和并行计算。
其他价值
 该研究不仅为深度学习硬件加速提供了新的技术路径，还为未来支持更复杂卷积操作（如步幅大于1的卷积、转置卷积和扩张卷积）奠定了基础。此外，研究团队计划将该加速器应用于自动驾驶系统，以实现实时目标检测功能。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问