分享自:

一种高效的视觉识别Transformer:REST

期刊:35th conference on neural information processing systems (NeurIPS 2021)

基于REST的高效视觉识别Transformer模型研究

作者及机构
本研究的作者为Qing-Long Zhang和Yu-Bin Yang,均来自中国南京大学的国家软件新技术重点实验室。该研究发表于第35届神经信息处理系统会议(NeurIPS 2021)。

学术背景
视觉识别是计算机视觉领域的核心任务之一,其性能依赖于高效的骨干网络架构。传统卷积神经网络(CNN)因参数共享和局部信息聚合能力而被广泛使用,但其固定感受野限制了长距离依赖建模的能力。近年来,基于Transformer的视觉骨干网络(如ViT)通过全局注意力机制展现了更强的建模能力,但仍存在以下问题:(1) 低层级特征(如边缘、角点)提取能力不足;(2) 多头自注意力(MSA)的计算和内存开销随空间或嵌入维度呈二次方增长;(3) 固定尺度的位置编码难以适应多尺度预测任务。
针对这些问题,作者提出了REST(ResNet-inspired Efficient Transformer),旨在设计一种高效、多尺度的视觉Transformer骨干网络,兼顾计算效率与性能。

研究流程与方法
1. 模型架构设计
REST沿用了ResNet的四阶段分层结构,每个阶段包含三个核心模块:
- Patch Embedding模块:通过重叠卷积操作(stride=2)逐步降低空间分辨率并扩展通道维度。例如,阶段2将输入从H/4×W/4×C降采样至H/8×W/8×2C。
- 位置编码模块:提出像素注意力(PA, Pixel-Attention),通过3×3深度卷积生成空间权重,动态适应任意输入尺寸,避免了传统插值或微调的需求。
- 高效Transformer块(EMSA)
- 内存压缩:将2D token重塑为3D形式(dm×h×w),通过深度卷积(kernel=s+1, stride=s)压缩空间维度至h/s×w/s,显著降低计算成本。
- 跨头交互:在注意力计算中引入1×1卷积建模头间交互,辅以实例归一化(IN)保留多头多样性,公式为:
[ \text{EMSA}(q,k,v) = \text{IN}(\text{softmax}(\text{conv}(qk^T/\sqrt{d_k})))v ]
- 计算复杂度:从标准MSA的O(2dmn² + 4d²mn)降至O(2dmn²/s² + 2d²mn(1+1/s²))。

  1. 实验验证
    • 数据集与基准
      • ImageNet-1K分类:比较REST与ResNet、PVT、Swin Transformer等模型,在224×224分辨率下测试Top-1准确率。
      • COCO2017目标检测与实例分割:采用RetinaNet和Mask R-CNN框架,评估AP(Average Precision)指标。
    • 训练配置
      • 使用AdamW优化器(lr=5e-4)、余弦学习率衰减,结合MixUp、CutMix等数据增强。
      • 目标检测任务中,为适应FPN结构,在每阶段输出前添加层归一化(LN)。

主要结果
1. ImageNet-1K分类
- REST-Small以13.66M参数量达到79.6% Top-1准确率,显著优于PVT-Tiny(75.1%)和ResNet-18(69.7%)。
- REST-Large(83.6%)以更低的计算量(7.9G FLOPs)超越Swin-S(83.3%),验证了EMSA的高效性。

  1. 下游任务性能

    • 目标检测(RetinaNet):REST-Small在COCO上AP为40.3,较PVT-T(36.7)提升3.6点。
    • 实例分割(Mask R-CNN):REST-Base的Box AP(41.6)和Mask AP(38.7)均高于PVT-S(40.437.8)。
  2. 消融实验

    • Stem模块:三卷积层设计(stride=2,1,2)比ResNet(7×7卷积+池化)提升0.64%准确率。
    • 位置编码:PA模块较传统可学习编码(LE)提升0.9%准确率,证明动态空间注意力的优势。

结论与价值
REST通过EMSA和动态位置编码,解决了Transformer在视觉任务中的计算效率与多尺度适应性难题。其科学价值体现在:
1. 方法论创新:首次将深度卷积引入MSA压缩,同时通过跨头交互增强短序列建模能力。
2. 应用价值:在分类、检测、分割任务中均超越SOTA,尤其适合资源受限场景(如REST-Lite仅1.4G FLOPs)。

研究亮点
1. 高效注意力机制:EMSA通过空间压缩和头间交互,平衡了计算成本与性能。
2. 灵活的位置编码:PA模块支持任意输入尺寸,无需插值或微调。
3. 多任务通用性:同一架构在分类和密集预测任务中均表现优异,为视觉骨干网络设计提供了新范式。

其他贡献
作者开源了代码与模型(GitHub: wofmanaf/REST),促进了后续研究。实验部分还验证了平均池化可作为深度卷积的替代方案,为硬件优化提供了灵活性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com