分享自:

瞥视与凝视视觉Transformer

期刊:35th Conference on Neural Information Processing Systems (NeurIPS 2021)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

主要作者及机构
该研究由Qihang Yu(第一作者)、Yingda Xia、Yutong Bai、Yongyi Lu、Alan Yuille(均来自约翰霍普金斯大学计算机科学系)以及Wei Shen(通讯作者,上海交通大学人工智能研究院)共同完成。论文发表于第35届NeurIPS会议(2021年)。

学术背景
该研究属于计算机视觉领域,聚焦于视觉Transformer(ViT)模型的优化。传统的卷积神经网络(CNN)在局部特征提取上表现优异,但缺乏对长距离依赖关系的建模能力。Transformer因其全局建模能力在视觉任务中展现出优势,但其核心模块自注意力(self-attention)的计算复杂度随输入序列长度呈平方级增长,导致高分辨率图像处理时面临计算和内存压力。
研究团队受人类“扫视-凝视”(glance-and-gaze)行为的启发,提出了一种新型视觉Transformer——GG-Transformer(Glance-and-Gaze Transformer),旨在同时高效建模长距离依赖和局部上下文,解决现有ViT在高分辨率密集预测任务中的瓶颈。

研究流程与方法
1. 模型设计
- 双分支结构:GG-Transformer包含并行的Glance分支和Gaze分支。
- *Glance分支*:通过自适应扩张分割(adaptively-dilated splitting)将输入特征图划分为多个扩张分区,每个分区覆盖全局但采样稀疏,自注意力仅作用于分区内,将计算复杂度从平方级降至线性级(O(n))。
- *Gaze分支*:采用深度可分离卷积(depthwise convolution)补充局部特征,其核大小可选择固定(如3×3)或自适应(与扩张率匹配)。
- 合并操作:两分支输出通过合并(merging)操作重组为完整特征图,保持输入输出尺寸一致。

  1. 实验验证

    • 基准任务:在ImageNet分类、COCO目标检测、ADE20K语义分割三大任务上测试。
    • 对比模型:包括ResNet、EfficientNet、DeiT、PVT、Swin-Transformer等主流CNN和ViT模型。
    • 训练设置:遵循Swin-Transformer的配置(如AdamW优化器、300epoch训练),确保公平比较。
  2. 创新方法

    • 自适应扩张分割算法:动态调整分区扩张率(如h/m, w/m),平衡全局感知与计算效率。
    • 轻量化Gaze分支:仅增加k²nc的计算量(k为卷积核大小),几乎不额外消耗资源。

主要结果
1. ImageNet分类
- GG-T(28M参数)Top-1准确率达82.0%,超越参量更大的DeiT-B(81.8%)和PVT-Large(81.7%)。
- 相比同规模的Swin-T(81.2%),性能提升0.8%,证明双分支设计的有效性。

  1. ADE20K语义分割

    • 单尺度测试下,GG-T的mIoU为46.4%,优于Swin-T(44.5%)和ResNet50(42.1%)。
    • 多尺度测试进一步提升至47.2%,接近更大模型Swin-S(49.5%)的性能。
  2. COCO目标检测

    • 在Mask R-CNN框架下,GG-T的box AP达44.1,高于Swin-T(43.7)和PVT-Small(40.4)。

结论与价值
GG-Transformer通过仿生双分支设计,首次在ViT中实现长距离依赖与局部上下文的协同建模,其线性计算复杂度使其可扩展至高分辨率任务。科学价值体现在:
1. 提出“全局稀疏注意力+局部卷积补偿”的新范式,为ViT架构设计提供新思路。
2. 实验证明,在相同计算成本下,性能优于现有高效ViT(如Swin-Transformer)。应用上,该模型适合医疗影像分割、自动驾驶等高分辨率视觉场景。

研究亮点
1. 仿生创新:首次将人类视觉的“扫视-凝视”机制转化为可计算的Transformer模块。
2. 效率突破:通过自适应扩张分割,实现自注意力的线性复杂度与全局感知并存。
3. 广泛适用性:在分类、检测、分割任务中均表现优异,验证了通用性。

其他发现
消融实验表明:
- 单独使用Glance或Gaze分支均会导致性能下降(分别降低1.29%和1.74%),证实双分支互补的必要性。
- 自适应Gaze核(如9×9)比固定核(3×3)效果更优,因其与扩张率匹配。

该研究为ViT在高分辨率视觉任务中的应用提供了高效解决方案,未来可探索其在视频分析或多模态学习中的潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com