基于REST的高效视觉识别Transformer模型研究
作者及机构
本研究的作者为Qing-Long Zhang和Yu-Bin Yang,均来自中国南京大学的国家软件新技术重点实验室。该研究发表于第35届神经信息处理系统会议(NeurIPS 2021)。
学术背景
视觉识别是计算机视觉领域的核心任务之一,其性能依赖于高效的骨干网络架构。传统卷积神经网络(CNN)因参数共享和局部信息聚合能力而被广泛使用,但其固定感受野限制了长距离依赖建模的能力。近年来,基于Transformer的视觉骨干网络(如ViT)通过全局注意力机制展现了更强的建模能力,但仍存在以下问题:(1) 低层级特征(如边缘、角点)提取能力不足;(2) 多头自注意力(MSA)的计算和内存开销随空间或嵌入维度呈二次方增长;(3) 固定尺度的位置编码难以适应多尺度预测任务。
针对这些问题,作者提出了REST(ResNet-inspired Efficient Transformer),旨在设计一种高效、多尺度的视觉Transformer骨干网络,兼顾计算效率与性能。
研究流程与方法
1. 模型架构设计
REST沿用了ResNet的四阶段分层结构,每个阶段包含三个核心模块:
- Patch Embedding模块:通过重叠卷积操作(stride=2)逐步降低空间分辨率并扩展通道维度。例如,阶段2将输入从H/4×W/4×C降采样至H/8×W/8×2C。
- 位置编码模块:提出像素注意力(PA, Pixel-Attention),通过3×3深度卷积生成空间权重,动态适应任意输入尺寸,避免了传统插值或微调的需求。
- 高效Transformer块(EMSA):
- 内存压缩:将2D token重塑为3D形式(dm×h×w),通过深度卷积(kernel=s+1, stride=s)压缩空间维度至h/s×w/s,显著降低计算成本。
- 跨头交互:在注意力计算中引入1×1卷积建模头间交互,辅以实例归一化(IN)保留多头多样性,公式为:
[ \text{EMSA}(q,k,v) = \text{IN}(\text{softmax}(\text{conv}(qk^T/\sqrt{d_k})))v ]
- 计算复杂度:从标准MSA的O(2dmn² + 4d²mn)降至O(2dmn²/s² + 2d²mn(1+1/s²))。
主要结果
1. ImageNet-1K分类
- REST-Small以13.66M参数量达到79.6% Top-1准确率,显著优于PVT-Tiny(75.1%)和ResNet-18(69.7%)。
- REST-Large(83.6%)以更低的计算量(7.9G FLOPs)超越Swin-S(83.3%),验证了EMSA的高效性。
下游任务性能
消融实验
结论与价值
REST通过EMSA和动态位置编码,解决了Transformer在视觉任务中的计算效率与多尺度适应性难题。其科学价值体现在:
1. 方法论创新:首次将深度卷积引入MSA压缩,同时通过跨头交互增强短序列建模能力。
2. 应用价值:在分类、检测、分割任务中均超越SOTA,尤其适合资源受限场景(如REST-Lite仅1.4G FLOPs)。
研究亮点
1. 高效注意力机制:EMSA通过空间压缩和头间交互,平衡了计算成本与性能。
2. 灵活的位置编码:PA模块支持任意输入尺寸,无需插值或微调。
3. 多任务通用性:同一架构在分类和密集预测任务中均表现优异,为视觉骨干网络设计提供了新范式。
其他贡献
作者开源了代码与模型(GitHub: wofmanaf/REST),促进了后续研究。实验部分还验证了平均池化可作为深度卷积的替代方案,为硬件优化提供了灵活性。