Seaformer++:用于移动视觉识别的增强型轴向Transformer架构
SEAFormer++——为移动视觉识别设计的高效Transformer架构
研究背景与问题提出
近年来,计算机视觉领域经历了从卷积神经网络(CNN)到基于Transformer的方法的重大转变。然而,尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力,其高昂的计算成本和内存需求使其难以部署在移动设备上,尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求,研究者们提出了多种轻量化方法,例如局部注意力机制、轴向注意力(Axial Attention)和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。
针对这一挑战,Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer(SEAFormer),旨在通过创新的注意力模块设计,在保持高性能的同时显著降低计算复杂度,从而实现高效的移动语义分割。此外,作者还引入了基于特征上采样的多分辨率蒸馏技术,进一步优化模型的推理速度和精度。
论文来源与作者信息
本文由Qiang Wan(复旦大学)、Zilong Huang(字节跳动)、Jiachen Lu(复旦大学)、Gang Yu(腾讯)和Li Zhang(复旦大学)共同撰写,并于2025年1月发表在《International Journal of Computer Vision》期刊上。该研究得到了国家自然科学基金(项目编号62376060)的支持。
研究内容与实验流程
a) 研究工作流
本研究主要包括以下几个关键部分:
1. 核心模块设计:Squeeze-Enhanced Axial Attention (SEA Attention)
SEA Attention是SEAFormer的核心组件,旨在通过“压缩-增强”策略提取全局语义信息并补充局部细节。具体而言: - 压缩阶段:将输入特征图沿水平或垂直方向进行自适应压缩,生成紧凑的行或列表示。 - 增强阶段:通过深度可分离卷积层增强局部细节,并结合压缩后的全局特征完成最终特征融合。 - 位置嵌入:为了解决压缩操作丢失位置信息的问题,作者引入了Squeeze Axial Position Embedding,使模型能够感知压缩特征的位置信息。
2. 双分支网络架构
SEAFormer采用双分支结构,包括上下文分支(Context Branch)和空间分支(Spatial Branch): - 上下文分支:专注于捕获高层次语义信息,通过堆叠多个SEAFormer层实现。 - 空间分支:专注于保留低层次空间细节,通过融合上下文分支的特征来增强语义信息。 - 融合块(Fusion Block):用于将上下文分支和空间分支的特征进行融合,采用sigmoid乘法作为最佳融合方式。
3. 多分辨率蒸馏技术
为了进一步降低推理延迟,作者提出了一种基于特征上采样的多分辨率蒸馏框架: - 学生模型:以低分辨率输入训练,通过MobileNetV2模块对特征进行上采样以匹配教师模型的分辨率。 - 损失函数:包括分类损失、跨模型分类损失、特征相似性损失和输出相似性损失,确保学生模型能够有效模仿教师模型的行为。
4. 实验设置
- 数据集:ADE20K、Cityscapes、Pascal Context和COCO-Stuff。
- 评估指标:mIoU(Mean Intersection over Union)、参数量(Params)、浮点运算数(FLOPs)和推理延迟(Latency)。
- 硬件平台:所有实验均在单个Qualcomm Snapdragon 865处理器上运行,仅使用ARM CPU核心进行测试。
b) 主要结果
1. SEAFormer的性能表现
在ADE20K验证集上的实验表明,SEAFormer在多个指标上均优于现有方法: - 小模型(SEAFormer-Tiny):mIoU达到36.8%,延迟仅为41ms。 - 中等模型(SEAFormer-Small):mIoU提升至39.7%,延迟为68ms。 - 大模型(SEAFormer-Large):mIoU高达43.8%,延迟为369ms。
相比TopFormer(当前最先进的轻量化Transformer),SEAFormer不仅提升了mIoU(最高+8.3%),还显著降低了延迟(最低减少16%)。
2. 多分辨率蒸馏的效果
通过引入多分辨率蒸馏技术,SEAFormer++(KD)版本进一步优化了性能: - 在ADE20K验证集上,SEAFormer-B++(KD)实现了39.5%的mIoU,同时将延迟降至55ms。 - 对比传统低分辨率蒸馏方法,多分辨率蒸馏的mIoU提高了3.4个百分点(35.5 vs. 32.1)。
3. 其他任务的表现
除了语义分割,SEAFormer还在图像分类和目标检测任务中表现出色: - 图像分类:在ImageNet-1K数据集上,SEAFormer-L++达到了80.6%的Top-1准确率,延迟仅为61ms。 - 目标检测:在COCO数据集上,SEAFormer-L++的AP值达到40.2%,远超MobileNetV3等基线模型。
c) 结论与意义
科学价值
SEAFormer填补了移动设备友好型高效Transformer的空白,通过创新的注意力机制设计和双分支架构,在语义分割任务中实现了性能与效率的最佳平衡。
应用价值
SEAFormer不仅适用于语义分割,还可扩展到图像分类和目标检测等多种任务,展示了作为通用移动友好型骨干网络的潜力。此外,多分辨率蒸馏技术为资源受限环境下的模型优化提供了新思路。
d) 研究亮点
- 创新的注意力机制:SEA Attention通过自适应压缩和卷积增强,显著降低了计算复杂度,同时保留了全局语义和局部细节。
- 高效的双分支架构:上下文分支和空间分支的协同设计,使模型能够在不同尺度上捕获丰富的语义信息。
- 多分辨率蒸馏技术:通过特征上采样实现高低分辨率模型间的知识迁移,大幅减少了推理延迟。
- 广泛的应用场景:SEAFormer在语义分割、图像分类和目标检测等多个任务中均表现出色,证明了其通用性和鲁棒性。
e) 其他有价值的信息
论文公开了代码和模型,可在GitHub获取。此外,作者详细分析了不同上采样模块和损失函数配置的影响,为未来研究提供了宝贵的参考。
总结
SEAFormer++的研究不仅解决了移动设备上高分辨率语义分割的性能瓶颈,还通过多分辨率蒸馏技术进一步优化了模型效率。其创新的设计理念和广泛的适用性,为计算机视觉领域的轻量化模型开发树立了新的标杆。