分享自:

SuperHCA:一种具有稀疏感知异构核心架构的高效深度学习边缘超分辨率加速器

期刊:IEEE Transactions on Circuits and Systems—I: Regular PapersDOI:10.1109/TCSI.2024.3425753

面向边缘设备的高效深度学习超分辨率加速器SuperHCA:一种具有稀疏感知异构核心架构的设计

本文的研究由中国电子科技大学信息与通信工程学院的胡子成(研究生会员,IEEE)、曾佳浩、赵鑫(学生会员,IEEE)、周亮以及常亮(会员,IEEE)共同完成。该研究成果以论文形式“SuperHCA: An Efficient Deep-Learning Edge Super-Resolution Accelerator with Sparsity-Aware Heterogeneous Core Architecture”发表于IEEE Transactions on Circuits and Systems—I: Regular Papers期刊的第71卷第12期,出版时间为2024年12月。论文获得了国家自然科学基金和中国科学院计算技术研究所计算机体系结构国家重点实验室的资助。

一、 学术背景与研究目标

本研究属于集成电路设计、计算机体系结构与人工智能(AI)硬件加速的交叉领域,具体聚焦于深度学习超分辨率(Super-Resolution, SR)模型在边缘设备上的高效部署与加速。

随着无人机、智能手机摄像头等边缘设备对高质量图像内容的需求日益增长,基于深度神经网络(DNN)的超分辨率生成模型已成为图像增强领域的主导技术。相较于传统方法,这些模型能生成更高质量的图像。将SR模型部署在边缘设备上具有显著优势:可减少向云端传输和存储大量数据的需要,节省带宽与存储空间,并因本地推理而增强用户个人内容的隐私性。

然而,SR模型在硬件实现上面临独特挑战。与分类、目标检测等网络任务不同,SR网络处理过程中的中间特征图(Feature Maps)在所有阶段都保持其原始尺寸,且网络通常包含上采样层(如反卷积层),导致计算量巨大、数据传输频繁。这对嵌入式硬件资源受限、功耗预算严格的边缘设备构成了严峻挑战。现有的一些SR硬件加速研究,或未能充分利用网络特性,或在利用特征稀疏性(Sparsity)方面存在效率瓶颈。例如,一些工作虽然采用了层融合(Layer Fusion)方法来减少外部内存访问(External Memory Access, EMA),但需要较大的片上缓冲(On-chip Buffer)。而SR网络中普遍使用的ReLU激活函数会引入显著的特征稀疏性,但如何高效利用这种稀疏性以提升硬件能效,尚未在SR加速器中得到充分探索。

因此,本研究旨在通过算法-硬件协同设计(Hardware-Algorithm Co-design)的方法,全面解决边缘SR加速的难题。其核心目标是:设计一个硬件友好的轻量级SR网络,以降低计算和存储开销;开发一种新型的硬件加速器架构,能够智能区分并高效处理网络中的密集(Dense)与稀疏(Sparse)计算负载;并通过创新的数据流和电路设计,最大限度地减少片上缓冲区大小和外部内存访问,最终实现高能效、高性能的边缘SR实时处理。

二、 详细研究流程与方法

本研究的工作流程紧密围绕算法设计与硬件架构设计两个核心展开,相互协同。

第一环节:硬件导向的轻量级SR算法设计(ABS-Net) 研究首先从算法端入手,提出了一种名为Anchor-Based Shuffle Net (ABS-Net) 的轻量级SR网络。该网络结构主要包含三个模块:预提取模块、混洗提取模块和上采样模块。其设计充分考虑了硬件实现的高效性:1) 采用组卷积(Group Convolution)减少计算量和参数负载;2) 引入通道混洗(Channel Shuffle)加强特征融合以保障图像质量;3) 最关键的是采用了基于锚点的残差学习(Anchor-Based Residual Learning)。该方法将输入图像复制多份后叠加到像素混洗前的特征图上,使得网络学习的是输入与高分辨率真值(Ground Truth)之间的小残差,而非整个复杂的映射关系。这不仅稳定了训练,更重要的是使网络对后续硬件量化(Quantization)带来的精度损失更具鲁棒性。

为了优化硬件存储,研究还引入了切片计算方案(Slice Computing Scheme)。它将输入图像沿宽度方向分割成多个切片(例如,将1920x1080的图像分割为多个30x1080的切片)进行独立处理。在训练时,计算每个输出切片与对应真值切片的损失;在推理时,将各切片结果拼接成全图。这为后续硬件数据流设计奠定了基础。研究团队在NVIDIA Tesla V100 GPU上使用DIV2K数据集对ABS-Net进行了训练,并分析了网络中各层的特征稀疏性,发现前三层等中间层输出具有显著的稀疏性,这为异构架构设计提供了依据。

第二环节:动态量化与硬件友好性优化 为实现算法到硬件的映射,研究提出了动态尺度定点(Dynamic-Scale Fixed-Point, DSFP)量化方法。与所有层使用统一量化尺度的传统固定尺度定点(FSFP)方法不同,DSFP允许根据每层权重和特征图的数值分布,独立配置最优的量化尺度(偏移)。这种方法有效缓解了中间数据的精度损失。实验表明,将ABS-Net的权重和特征图量化为9位后,峰值信噪比(PSNR)下降可忽略不计(小于0.1 dB),显著优于传统量化方法。这种量化策略随后被整合到硬件设计中,通过一个可重构的动态量化单元在线配置。

第三环节:SuperHCA异构加速器架构设计 基于对ABS-Net算法特性和稀疏性的分析,研究提出了名为SuperHCA的核心硬件加速器架构。该架构最显著的特点是采用了稀疏感知的异构核心架构。整个ABS-Net的计算负载被根据特征稀疏度分配到三个异构核心中:两个不同规模的密集核心(Dense Core 0 和 Dense Core 2)用于处理稀疏度低的层,一个稀疏核心(Sparse Core 1)专门用于处理特征稀疏度高的中间层。

为了大幅减少片上缓冲区需求,研究提出了切片层融合(Slice Layer Fusion, SLF)数据流。该数据流与算法端的切片计算方案协同工作。在SLF下,稀疏核心1和密集核心2以层融合的方式流水线作业,每个核心只处理并暂存当前计算切片的数据。一旦一个切片行的计算完成,其数据便被新切片行覆盖,无需为整个特征图保留巨大的中间缓冲区。这使得SuperHCA的片上特征图存储需求相比基线设计降低了96.8%。

为了高效利用稀疏性,研究在稀疏核心中提出了特征共享位交错(Feature-Sharing Bit Interleaving, FSBI)方法及其硬件实现——特征共享稀疏处理单元。传统位交错方法主要针对浮点数且预处理开销大。FSBI方法针对定点数卷积进行了优化,它观察到对于同一输入激活值,其在多个输出通道计算中是共享的。基于此,FSBI将卷积运算转换为共享输入的比特级加法操作,并通过一个优化的加法树实现。其硬件设计移除了复杂的乘法器关键路径,使得稀疏核心能够工作在更高的频率(600MHz),并显著减少了预处理逻辑的硬件资源消耗。分析显示,基于FSBI的稀疏处理单元面积比基线设计减少了39.9%。

第四环节:系统集成、实现与评估 研究团队使用Verilog HDL完成了SuperHCA的硬件设计,并基于UMC 55nm CMOS工艺完成了从前端到后端的全流程ASIC实现,获得了最终的芯片版图。整个系统采用核心间流水线计算方案,并通过FIFO(先进先出)缓冲来协调不同核心间的工作频率差异。为了评估算法和硬件的综合性能,研究进行了多方面的实验对比。

三、 主要研究结果

算法性能方面: 在Set5、Set14和BSD100等标准数据集上的测试表明,ABS-Net在参数量仅略高于SRCNN和FSRCNN-S等轻量模型的情况下,取得了更优的PSNR性能(至少高出0.6 dB)。同时,其计算量(MAC操作数)在对比模型中处于第二低水平,仅次于FSRCNN-S,体现了优异的性能-复杂度权衡。可视化对比也证实了ABS-Net能生成高质量的图像。

量化性能方面: 在Set5数据集上的量化实验显示,本研究提出的DSFP量化方法在各种比特位宽下均优于传统的FSFP量化。特别地,当对ABS-Net的权重和激活值均采用9位DSFP量化时,PSNR下降仅0.06 dB。相比之下,没有采用锚点残差学习的FSRCNN模型在同样条件下PSNR下降高达1.82 dB,这充分证明了锚点残差学习对量化鲁棒性的提升作用。此外,9位SuperHCA设计相比16位版本,核心面积减少了51%。

硬件效率与性能方面: SuperHCA在UMC 55nm工艺下实现的芯片面积为4 mm²,功耗仅为170 mW。在目标分辨率(FHD,即1920x1080)下,其处理速度达到91帧每秒(fps)。性能对比分析显示: 1. 内存足迹: 得益于SLF数据流,片上特征图内存需求极低,仅44KB,并有效减少了外部内存访问。 2. 稀疏核心效率: 基于FSBI的稀疏处理单元面积效率显著优于基线设计和对比的Bitlet处理单元。 3. 总体能效与面积效率: 与现有最先进的SR硬件加速器工作相比,SuperHCA实现了最高的吞吐量-面积比(Throughput-Area Ratio, TAR),达到22.75 fps/mm²,体现了其卓越的能效和面积效率。与嵌入式GPU(如Jetson系列)和独立GPU相比,SuperHCA在保持高帧率的同时,功耗低数个数量级,能效(1.87 mJ/帧)优势明显。

四、 结论与价值

本研究成功设计并实现了一个面向边缘设备的高效能深度学习超分辨率加速器系统。其科学价值与应用价值主要体现在: 1. 算法-硬件深度协同设计范式: 研究展示了一个从算法创新(ABS-Net网络、锚点残差学习、切片计算、DSFP量化)到硬件架构创新(异构核心、SLF数据流、FSBI方法)的完整协同优化闭环,为解决边缘AI部署中的性能、能效和面积矛盾提供了系统性方案。 2. 稀疏性利用的新思路: 针对SR网络的特点,提出了FSBI这一专门面向定点数稀疏卷积的高效处理方法,并通过特征共享机制简化了硬件逻辑,为稀疏DNN加速器设计提供了新的技术路径。 3. 高性能、低功耗的边缘SR解决方案: SuperHCA以极小的芯片面积和功耗,实现了FHD分辨率下91 fps的实时超分辨率处理,满足了无人机、智能手机等设备对高质量图像实时本地增强的迫切需求,具有明确且广阔的应用前景。

五、 研究亮点

  1. 异构核心架构的精准负载分配: 首次在SR加速器中根据网络层固有的特征稀疏度差异,采用“密集-稀疏-密集”的异构核心架构,实现了计算资源的精细化配置和高效利用。
  2. 创新的SLF数据流: 结合算法切片与硬件层融合,创造性地提出了SLF数据流,近乎完美地解决了SR网络中中间特征图占用巨大缓冲区的核心难题,大幅降低了片上存储和外部带宽需求。
  3. 高效的稀疏处理技术FSBI: 针对定点数卷积和SR网络特性,设计了FSBI方法及其硬件单元,在有效利用稀疏性提升能效的同时,避免了传统位交错方法对浮点数和复杂预处理逻辑的依赖,实现了更高的面积效率。
  4. 增强量化鲁棒性的锚点残差学习: 该算法创新不仅提升了网络性能,更重要的是显著增强了模型对低位宽量化的容忍度,为低精度硬件部署扫清了关键障碍。

六、 其他有价值内容

研究还对芯片的功耗和面积进行了详细分解。分析显示,承担最重卷积计算负载且工作频率最高的稀疏核心1是功耗(116.2 mW)和面积(1.20 mm²)的主要贡献者,占总面积的近60%,这符合设计预期,也指明了未来进一步优化的重点。同时,论文通过与多款GPU的对比,凸显了专用ASIC加速器在能效上的绝对优势,巩固了其在边缘计算场景下的不可替代性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com