分享自:

基于RISC-V的高吞吐量稀疏Winograd CNN推理加速器

期刊:IEEE Embedded Systems LettersDOI:10.1109/LES.2025.3531251

本文档属于类型a(单一原创研究论文),以下是针对该研究的学术报告:


基于RISC-V的高吞吐量稀疏Winograd CNN推理FPGA加速器研究

作者及机构
本研究由国际半导体技术学院(National Yang Ming Chiao Tung University)的Shabirahmed Badashasab Jigalur(研究生会员,IEEE)、Chang-Ling Tsai、Yu-Chi Shih及Yen-Cheng Kuan(IEEE会员)共同完成,发表于2025年8月的《IEEE Embedded Systems Letters》第17卷第4期。

学术背景

研究领域与动机
卷积神经网络(CNN)在计算机视觉任务中表现卓越,但随着模型深度增加,计算负载呈指数级增长。传统CNN加速方案受限于计算效率,而Winograd快速卷积算法能够显著减少乘加操作次数。Liu等人提出的稀疏Winograd-ReLU CNN(Winograd-ReLU CNN)通过将ReLU操作移至Winograd域,进一步提升了激活矩阵的稀疏性,从而降低计算复杂度。与此同时,RISC-V以其开放、可扩展的指令集架构(ISA)为硬件-软件协同设计提供了灵活性。

研究目标
本研究旨在开发一种基于RISC-V的FPGA加速器,通过处理器-协处理器并行架构,高效支持稀疏Winograd-ReLU CNN推理,兼顾高吞吐量与硬件资源效率,并验证其在多样化网络架构中的适用性。


研究流程与方法

1. 加速器架构设计

核心组件
- RISC-V处理器:采用Andes NX27V核心,支持RISC-V IMAFD标准指令及向量扩展(”V”指令),配备向量处理单元(VPU)和自定义扩展接口(ACE)。
- 协处理器:包含16个并行计算单元,每个单元集成Winograd-ReLU卷积模块、输入/输出数据缓冲区和权重缓冲区。

关键技术
- Winograd-ReLU卷积流程(图2):
1. 输入变换(IT):将4×4输入激活块通过矩阵变换(公式1)映射至Winograd域。
2. ReLU稀疏化:在变换域内对激活值执行ReLU,生成稀疏矩阵。
3. 权重预处理:离线训练生成稀疏化的变换权重(TPWs),动态加载至协处理器。
4. 逐元素乘法(EWM):仅对非零元素执行乘法,显著减少计算量。
5. 输出变换(OT):通过公式2将结果转换回空间域,生成2×2输出块。
- 数据流优化:采用分块(Tilewise)数据流(图3),重用输入数据与权重,通过双缓冲机制实现流水线操作。

自定义指令开发
设计conv指令(表II),通过ACE接口实现处理器对协处理器的调用,字段包括操作码(opcode)、目标寄存器(rd)、输入矩阵寄存器(vs1/vs2)及功能码(func3/func7)。

2. FPGA实现与实验验证

硬件配置
- 平台:AMD VCU118 FPGA,主频250 MHz。
- 资源占用(表III):协处理器占据主要LUT与BRAM资源,处理器核心集成SRAM。

实验设计
- 模型部署
- VGG16改进模型:将卷积核调整为4×4适配Winograd变换,16位量化后准确率92.4%。
- 行人-自行车分类模型(PBC):将原3×3卷积核压缩至Winograd兼容尺寸,8/16位混合量化后准确率86.02%。
- 性能测试
- 吞吐量:VGG16推理中,卷积层平均吞吐量达5341.3 GOP/s,全网络推理为5104.6 GOP/s(表IV)。
- 并行效率:处理器执行ReLU/池化层的同时,协处理器处理卷积/全连接层(图4b),较纯处理器方案提升显著。


主要结果与结论

1. 性能优势

  • 高吞吐量:Winograd-ReLU卷积的稀疏性使计算量降低50%以上,VCU118平台实现超5000 GOP/s的吞吐量,优于传统Winograd加速器(如[18][19])。
  • 资源效率:通过硬件复用(如EWM模块支持FC层计算)与分块数据流,BRAM利用率优化30%。

2. 架构灵活性

  • 多网络支持:通过动态重构(表I),协处理器可适配最大池化、平均池化及全连接层,成功部署VGG16、PBC、ResNet-50和DenseNet-121等模型。
  • 量化兼容性:16/8位混合量化下,PBC模型精度损失仅0.24%,验证硬件对低精度推理的鲁棒性。

3. 科学价值

  • 方法论创新:首次将RISC-V扩展指令与稀疏Winograd-ReLU卷积结合,为开源硬件生态提供高效CNN加速方案。
  • 应用潜力:适用于边缘计算场景(如自动驾驶、无人机目标识别),平衡功耗与实时性需求。

研究亮点

  1. 稀疏性利用:Winograd域内ReLU操作提升激活矩阵稀疏度,较传统Winograd进一步减少计算负载。
  2. 硬件-软件协同:处理器与协处理器并行化设计突破冯·诺依曼瓶颈,实现端到端流水线。
  3. 跨模型通用性:通过重构机制支持异构网络,克服固定架构加速器的局限性。

其他价值

  • 开源适配性:RISC-V ISA的开放性为后续指令集扩展(如支持动态稀疏模式)奠定基础。
  • 实验复现性:全文公开量化方案与硬件配置参数,推动领域内可比性研究。

本研究通过创新架构设计与工程优化,为边缘侧CNN推理提供了高吞吐、低功耗的解决方案,其方法论对下一代AI加速器设计具有广泛启示意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com