这篇题为“HaFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation”的论文由Guoan Xu、Wenjing Jia(IEEE会员)、Tao Wu、Ligeng Chen以及Guangwei Gao(IEEE高级会员)共同撰写。研究人员主要来自悉尼科技大学工程与信息技术学院、南京大学、荣耀终端有限公司以及南京邮电大学。该研究成果于2024年发表在 IEEE Transactions on Image Processing 第33卷上,并已于2024年7月15日在线发布。
学术背景与研究目的
本研究隶属于计算机视觉领域,具体聚焦于语义分割任务。语义分割是一项密集预测任务,旨在为图像中的每个像素分配一个语义类别标签,在自动驾驶、医疗影像分析等实际应用中至关重要。近年来,卷积神经网络(CNN)和视觉Transformer模型在此任务上均取得了巨大成功。CNN擅长提取局部特征和多尺度信息,而Transformer则因其强大的全局自注意力(Self-Attention)机制,在建模长距离依赖关系方面表现出色。因此,许多研究致力于融合两者优势,以同时捕捉局部细节与全局上下文。
然而,现有融合方法面临两大挑战。首先,Transformer模型的计算复杂度通常与输入序列长度的平方成正比,在处理高分辨率图像时会产生巨大的计算开销,不利于模型在资源受限设备(如移动终端或自动驾驶汽车)上的实时部署。其次,简单地拼接或相加CNN和Transformer的特征可能无法有效调和二者在特征表示上的差异,导致性能提升有限。因此,本研究旨在设计一个轻量级的语义分割模型,它需要同时具备:1)高效的多尺度局部特征提取能力;2)低复杂度的全局上下文建模能力;3)一种能有效融合两种异构特征的新机制。
详细工作流程
研究团队提出了一个名为 HaFormer 的新型网络架构。整体工作流程围绕其三个核心创新模块展开:层次感知像素激励模块(HAPe)、高效Transformer模块(ET)和相关加权融合模块(CWF)。实验流程则包括对这些模块进行系统的消融研究,并在两个主流街景数据集(Cityscapes和CamVid)上与当前最先进(SOTA)的轻量级方法进行全面对比。
第一阶段:HaFormer整体架构设计与核心模块开发
- 总体架构:HaFormer采用双分支编码器-解码器结构。CNN编码器分支用于提取层次化局部特征;Transformer编码器分支用于建模全局依赖。两条分支提取的特征通过CWF模块进行自适应融合,最终由一个轻量级解码器生成分割图。
- HAPe模块开发:此模块旨在高效地提取自适应多尺度局部特征。其工作流程如下:
- 通道降维:输入特征先通过1x1卷积降低通道数,以减少后续计算量。
- 并行层次卷积:采用四个并行的卷积路径,分别使用不同大小(3, 3, 5, 7)的核,其中后三个路径采用空洞卷积(Dilated Convolution)以扩大感受野。这种设计使模型能够并行捕获不同尺度的特征。
- 像素激励模块(PEM):这是一个内容感知的空间注意力机制。首先对特征图进行全局平均池化(GAP),然后通过Softmax函数生成一个空间权重图,该图能突出图像中信息量丰富的区域。最后,将此权重图与原始特征相乘,实现特征增强。
- 特征融合与恢复:将四条路径增强后的特征相加,通过1x1卷积进行融合并恢复通道数,最后通过通道混洗(Channel Shuffle)操作促进通道间信息交流,并与输入进行残差连接。
- ET模块开发:此模块旨在降低传统Transformer的二次计算复杂度。其关键创新在于 高效多头自注意力(EMHSA) 机制,工作流程如下:
- 空间缩减线性投影:将图像块(Patch)序列通过线性投影映射到一个维度更低的潜在嵌入空间,这直接减少了后续Q、K、V矩阵的维度。
- 特征分割与缩减:在自注意力计算前,对K和V矩阵进行空间维度缩减(设缩减比为r=2),并对Q、K、V矩阵进行特征分割(设分割数s=4)。这相当于将全局注意力计算分解为多个更小的、局部(分组)的注意力计算。
- 计算与合并:在各个分组内分别计算自注意力,然后将所有头的输出拼接并投影。通过上述设计,作者将传统自注意力的复杂度O(N²)降低到了O(N²/(s*r)),显著提升了计算效率。
- CWF模块开发:此模块旨在解决CNN与Transformer特征间的“失配”问题,实现更有效的融合。其工作流程如下:
- 特征对齐与拼接:将Transformer特征调整至与CNN特征相同的空间尺寸,然后将两者沿通道维度拼接。
- 相关性权重图生成:对拼接后的特征使用深度可分离卷积和1x1卷积进行学习,再通过全局平均池化和Sigmoid函数,生成一个通道级的相关性权重图。该权重图评估了来自两个分支的特征在每个通道上的重要性或相关性。
- 加权融合:使用生成的相关性权重图分别对原始的CNN特征和Transformer特征进行通道加权,然后将加权后的特征相加,得到融合后的特征。这种方式实现了基于特征相关性的自适应融合,而非简单的相加或拼接。
第二阶段:实验设置与验证
- 数据集与评估指标:研究在两个公开街景数据集上进行验证:高分辨率的Cityscapes(19个类别)和分辨率较低的CamVid(11个类别)。主要评估指标为平均交并比(mIoU),并同时考察模型参数量(Params)、浮点运算数(FLOPs)和推理速度(FPS)。
- 实现细节:实验在单张RTX 2080 Ti GPU上进行。使用随机梯度下降(SGD)优化器,并采用了随机翻转、缩放、裁剪等数据增强技术。模型从头开始训练,未使用预训练权重。
- 消融实验流程:这是验证各模块有效性的核心环节。
- HAPe模块消融:首先,用仅包含层次卷积的模块(HM)替换基线模型的残差模块,验证多尺度结构带来的性能提升。然后,测试完整HAPe(HM+PEM)的效果。实验在固定扩张率下进行,结果显示HM相较于基线提升约1.5% mIoU,而完整的HAPe带来了超过2.1%的显著提升,证明了PEM中注意力机制的有效性。
- 空洞率影响研究:通过调整HAPe模块中不同阶段空洞卷积的扩张率(如从全部为1逐步调整),发现更大的扩张率有助于扩大感受野,带来约0.5%至1.7%的性能增益,从而确定了最优的扩张率配置策略。
- ET模块消融:将提出的ET与传统Transformer(TT)进行对比。结果显示,在Cityscapes和CamVid数据集上,ET在仅损失约0.4% mIoU的情况下,实现了参数量减少18%、计算量减少17%的显著优势,验证了其在降低复杂度方面的有效性。实验还探索了ET层数(L)的影响,发现当L=2时能在效率与精度间达到最佳平衡。
- CWF模块消融:将CWF与简单的逐元素相加(Element-wise Addition)和拼接(Concatenation)两种融合方式对比。结果表明,CWF在仅轻微增加参数量和计算量的前提下,mIoU比加法融合高出1.27%以上,同时比计算量更大的拼接融合方式精度更高且更轻量,证实了其基于相关性的融合策略的优越性。
第三阶段:与前沿方法的对比实验 在完成模块有效性验证后,研究将完整的HaFormer模型与一系列SOTA的轻量级语义分割模型在Cityscapes和CamVid的测试集上进行了全面比较。对比内容包括整体mIoU、参数量、FLOPs以及每类别的IoU。此外,还在统一硬件平台(RTX 2080 Ti)上测试了模型处理512x1024分辨率图像的推理速度(FPS)。
主要研究结果
消融实验结果:
- HAPe模块被证明能有效提取多层次局部特征,其PEM组件通过空间注意力进一步聚焦重要区域,两者结合带来了显著的精度提升(例如在Cityscapes上提升超过2.13% mIoU)。
- ET模块成功地将Transformer的二次计算复杂度降级,在几乎不影响精度的前提下大幅提升了计算效率,为实现轻量化奠定了基础。
- CWF模块通过生成相关性权重图,实现了CNN与Transformer特征的智能融合,其性能显著优于传统的融合方法,且更高效。当结合两个ET层时,CWF为基线模型带来了高达4.06%的mIoU增益。
- 各模块的消融实验数据逻辑连贯:首先验证单个模块的有效性(如HAPe vs. 基线),然后验证其内部组件的贡献(如PEM),再验证其参数选择的合理性(如空洞率),最后验证不同模块组合(如ET层数)及交互方式(如CWF)的效果。每一步的结果都为下一步的配置选择和最终模型集成提供了数据支持。
与SOTA方法的对比结果:
- 在Cityscapes上:HaFormer取得了74.2%的mIoU,参数量仅为1.1M,计算量为10.6 GFLOPs。其精度显著优于许多参数量或计算量相近甚至更高的轻量模型(如CGNet、DABNet),同时也优于部分参数量更大的模型(如EFRNet-16的参数量是HaFormer的两倍但精度相近)。在推理速度方面,HaFormer达到了105 FPS,处于领先水平。
- 在CamVid上:HaFormer取得了71.1%的mIoU,推理速度为118 FPS。虽然MGSeg精度略高(72.7%),但其参数量(24.7M)是HaFormer的22倍以上。HaFormer在精度、速度和模型大小之间取得了更优的平衡。
- 可视化结果:论文提供的分割效果对比图显示,HaFormer在分割小物体(如交通标志、行人)和物体边界方面,比许多对比模型更加准确和清晰,这直接体现了其层次感知特征和有效特征融合的优势。
这些系统的实验结果有力地支持了论文的核心论点:HaFormer通过其创新的模块设计,成功地实现了在有限计算资源下高精度、高效率的语义分割。
结论与价值
本研究成功提出并验证了HaFormer这一新型轻量级语义分割模型。其主要结论是:通过协同设计层次感知像素激励模块(HAPe)、高效Transformer模块(ET) 和相关加权融合模块(CWF),能够有效结合CNN的局部感知优势与Transformer的全局建模能力,同时在精度与效率之间达成优异的平衡。
该研究的科学价值在于:1)提出了一种降低Transformer在视觉任务中计算复杂度的新思路(EMHSA),通过空间缩减和特征分割策略有效逼近了二次复杂度问题;2)设计了一种新的特征融合范式(CWF),通过计算通道相关性权重来自适应地整合异构特征,为解决多源特征融合问题提供了参考;3)系统性地展示了如何将层次化卷积、注意力机制和轻量化Transformer有机结合,为后续的轻量级密集预测模型设计提供了可借鉴的架构。
其应用价值十分明确:HaFormer凭借其高精度、高速度和小体积的特点,非常适合部署在自动驾驶汽车、移动机器人、嵌入式设备等对实时性和计算资源有严格要求的场景中,推动相关技术的实际落地。
研究亮点
- 方法创新性突出:研究的三个核心模块均为原创设计。HAPe将多尺度卷积与内容感知注意力结合;ET创新性地分解了自注意力计算;CWF引入了基于相关性的特征融合机制。这些创新点共同构成了一个完整且高效的解决方案。
- 实验验证全面且深入:论文不仅进行了最终的性能对比,还通过一系列设计精巧的消融实验,逐层剖析了每个模块及其内部组件的作用,提供了坚实的数据支撑,增强了结论的可信度。
- 实现了优异的平衡:HaFormer并非单纯追求某一指标的极致,而是在模型精度(mIoU)、计算效率(FLOPs、Params)和推理速度(FPS)这三个关键维度上取得了当前领先的综合表现,这正是轻量级模型设计的核心目标。
- 代码开源:作者在GitHub上公开了源代码,这有利于研究的可重复性,并促进了学术社区的进一步交流和改进。
其他有价值的内容
论文在引言和第二章“相关工作”中,对语义分割领域的进展,特别是基于CNN的轻量模型、视觉Transformer在分割中的应用以及各种注意力机制,进行了清晰的梳理和评述,为读者理解本研究的定位和贡献提供了良好的背景知识。此外,论文对实验细节的描述非常详尽,包括数据预处理、优化器参数、训练策略等,为其他研究者复现实验提供了充分的信息。