高效稀疏CNN推理加速器:平衡PE内与PE间工作负载的解决方案
作者及机构
本文由合肥工业大学微电子学院的Jianbo Guo、Tongqing Xu、Zhenyang Wu和Hao Xiao合作完成,发表于2025年5月的《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》第33卷第5期。Hao Xiao为通讯作者。
学术背景与研究动机
卷积神经网络(CNNs)在人工智能领域应用广泛,但其日益复杂的结构导致参数量激增,加大了计算负担。稀疏CNN(SCNNs)通过剪枝冗余参数在保持精度的同时降低计算复杂度,但非结构化的稀疏模式会引发计算负载不均衡问题,包括:
1. PE(Processing Element)内负载不均衡:稀疏权重导致计算引擎无法同步执行有效计算;
2. PE间负载不均衡:不同卷积核的稀疏程度差异导致PE等待时间增加。
此外,频繁的片外存储访问也制约了硬件加速器效率。为此,本文提出一种新型SCNN推理加速器,旨在解决负载不均衡问题并优化数据流。
研究方法与工作流程
1. 有效权重编码(Valid Weight Encoding, VWE)
- 目标:将稀疏权重压缩为稠密格式,解决PE内负载不均衡。
- 方法:通过映射索引(map indexes)替代传统行索引(如CSR/COO格式),减少存储开销。例如,3×3卷积核中,前3个有效权重的行索引排列仅有10种可能,用4位编码即可表示,显著降低解码复杂度。
- 优势:相比CSR和COO,VWE在70%稀疏度下存储效率分别提升1.5×和2×,且支持并行解码。
随机负载重排(Randomized Load Rearrangement, RLR)
循环权重静止数据流(Recurrent Weight Stationary, RWS)
全连接层优化
实验结果与性能评估
1. 硬件实现:基于Xilinx XCZUl5EG FPGA平台,加速器支持32×32 PE阵列,峰值算力达1529.16 GOPS,帧率48.54 fps。
2. 效率对比:
- DSP效率:相比现有稀疏加速器(如[9][31])提升1.16×~2.77×;
- 逻辑效率:LUT利用率提升1.75×~15×,主要得益于RLR的轻量化调度。
3. 精度验证:在ImageNet数据集上,70%稀疏度的SCNN精度损失仅为3.27%,优于同类稀疏方案。
结论与价值
1. 科学价值:
- VWE与RLR首次统一解决了SCNN中PE内与PE间的负载不均衡问题;
- RWS数据流为稀疏模型的高效存储访问提供新范式。
2. 应用价值:适用于边缘设备部署,如医疗影像识别(实验验证中草药分类准确率达96%)。
亮点
- 算法创新:VWE的并行解码设计、RLR的动态调度机制;
- 硬件协同优化:RWS数据流与PE阵列的深度融合;
- 全面性:覆盖卷积层与全连接层的端到端加速方案。
其他贡献
- 公开代码与测试环境(包括微型中草药数据集),便于复现与扩展。
本文为稀疏CNN的硬件加速提供了兼具高精度与高效能的设计典范,尤其适合资源受限场景。