一种高效的视觉识别Transformer：REST

分享自：
一种高效的视觉识别Transformer：REST

期刊:35th conference on neural information processing systems (NeurIPS 2021)
基于REST的高效视觉识别Transformer模型研究
作者及机构
 本研究的作者为Qing-Long Zhang和Yu-Bin Yang，均来自中国南京大学的国家软件新技术重点实验室。该研究发表于第35届神经信息处理系统会议（NeurIPS 2021）。
学术背景
 视觉识别是计算机视觉领域的核心任务之一，其性能依赖于高效的骨干网络架构。传统卷积神经网络（CNN）因参数共享和局部信息聚合能力而被广泛使用，但其固定感受野限制了长距离依赖建模的能力。近年来，基于Transformer的视觉骨干网络（如ViT）通过全局注意力机制展现了更强的建模能力，但仍存在以下问题：(1) 低层级特征（如边缘、角点）提取能力不足；(2) 多头自注意力（MSA）的计算和内存开销随空间或嵌入维度呈二次方增长；(3) 固定尺度的位置编码难以适应多尺度预测任务。
 针对这些问题，作者提出了REST（ResNet-inspired Efficient Transformer），旨在设计一种高效、多尺度的视觉Transformer骨干网络，兼顾计算效率与性能。
研究流程与方法
 1. 模型架构设计
 REST沿用了ResNet的四阶段分层结构，每个阶段包含三个核心模块：
 - Patch Embedding模块：通过重叠卷积操作（stride=2）逐步降低空间分辨率并扩展通道维度。例如，阶段2将输入从H/4×W/4×C降采样至H/8×W/8×2C。
 - 位置编码模块：提出像素注意力（PA, Pixel-Attention），通过3×3深度卷积生成空间权重，动态适应任意输入尺寸，避免了传统插值或微调的需求。
 - 高效Transformer块（EMSA）：
 - 内存压缩：将2D token重塑为3D形式（dm×h×w），通过深度卷积（kernel=s+1, stride=s）压缩空间维度至h/s×w/s，显著降低计算成本。
 - 跨头交互：在注意力计算中引入1×1卷积建模头间交互，辅以实例归一化（IN）保留多头多样性，公式为：
 [ \text{EMSA}(q,k,v) = \text{IN}(\text{softmax}(\text{conv}(qk^T/\sqrt{d_k})))v ]
 - 计算复杂度：从标准MSA的O(2dmn² + 4d²mn)降至O(2dmn²/s² + 2d²mn(1+1/s²))。
实验验证
 数据集与基准：
 ImageNet-1K分类：比较REST与ResNet、PVT、Swin Transformer等模型，在224×224分辨率下测试Top-1准确率。
 
COCO2017目标检测与实例分割：采用RetinaNet和Mask R-CNN框架，评估AP（Average Precision）指标。
 
训练配置：
 使用AdamW优化器（lr=5e-4）、余弦学习率衰减，结合MixUp、CutMix等数据增强。
 
目标检测任务中，为适应FPN结构，在每阶段输出前添加层归一化（LN）。
 
主要结果
 1. ImageNet-1K分类
 - REST-Small以13.66M参数量达到79.6% Top-1准确率，显著优于PVT-Tiny（75.1%）和ResNet-18（69.7%）。
 - REST-Large（83.6%）以更低的计算量（7.9G FLOPs）超越Swin-S（83.3%），验证了EMSA的高效性。
下游任务性能
目标检测（RetinaNet）：REST-Small在COCO上AP为40.3，较PVT-T（36.7）提升3.6点。
 
实例分割（Mask R-CNN）：REST-Base的Box AP（41.6）和Mask AP（38.7）均高于PVT-S（40.4⁄37.8）。
 
消融实验
Stem模块：三卷积层设计（stride=2,1,2）比ResNet（7×7卷积+池化）提升0.64%准确率。
 
位置编码：PA模块较传统可学习编码（LE）提升0.9%准确率，证明动态空间注意力的优势。
 
结论与价值
 REST通过EMSA和动态位置编码，解决了Transformer在视觉任务中的计算效率与多尺度适应性难题。其科学价值体现在：
 1. 方法论创新：首次将深度卷积引入MSA压缩，同时通过跨头交互增强短序列建模能力。
 2. 应用价值：在分类、检测、分割任务中均超越SOTA，尤其适合资源受限场景（如REST-Lite仅1.4G FLOPs）。
研究亮点
 1. 高效注意力机制：EMSA通过空间压缩和头间交互，平衡了计算成本与性能。
 2. 灵活的位置编码：PA模块支持任意输入尺寸，无需插值或微调。
 3. 多任务通用性：同一架构在分类和密集预测任务中均表现优异，为视觉骨干网络设计提供了新范式。
其他贡献
 作者开源了代码与模型（GitHub: wofmanaf/REST），促进了后续研究。实验部分还验证了平均池化可作为深度卷积的替代方案，为硬件优化提供了灵活性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问