瞥视与凝视视觉Transformer

分享自：
瞥视与凝视视觉Transformer

期刊:35th Conference on Neural Information Processing Systems (NeurIPS 2021)
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
主要作者及机构
 该研究由Qihang Yu（第一作者）、Yingda Xia、Yutong Bai、Yongyi Lu、Alan Yuille（均来自约翰霍普金斯大学计算机科学系）以及Wei Shen（通讯作者，上海交通大学人工智能研究院）共同完成。论文发表于第35届NeurIPS会议（2021年）。
学术背景
 该研究属于计算机视觉领域，聚焦于视觉Transformer（ViT）模型的优化。传统的卷积神经网络（CNN）在局部特征提取上表现优异，但缺乏对长距离依赖关系的建模能力。Transformer因其全局建模能力在视觉任务中展现出优势，但其核心模块自注意力（self-attention）的计算复杂度随输入序列长度呈平方级增长，导致高分辨率图像处理时面临计算和内存压力。
 研究团队受人类“扫视-凝视”（glance-and-gaze）行为的启发，提出了一种新型视觉Transformer——GG-Transformer（Glance-and-Gaze Transformer），旨在同时高效建模长距离依赖和局部上下文，解决现有ViT在高分辨率密集预测任务中的瓶颈。
研究流程与方法
 1. 模型设计
 - 双分支结构：GG-Transformer包含并行的Glance分支和Gaze分支。
 - *Glance分支*：通过自适应扩张分割（adaptively-dilated splitting）将输入特征图划分为多个扩张分区，每个分区覆盖全局但采样稀疏，自注意力仅作用于分区内，将计算复杂度从平方级降至线性级（O(n)）。
 - *Gaze分支*：采用深度可分离卷积（depthwise convolution）补充局部特征，其核大小可选择固定（如3×3）或自适应（与扩张率匹配）。
 - 合并操作：两分支输出通过合并（merging）操作重组为完整特征图，保持输入输出尺寸一致。
实验验证
基准任务：在ImageNet分类、COCO目标检测、ADE20K语义分割三大任务上测试。
 
对比模型：包括ResNet、EfficientNet、DeiT、PVT、Swin-Transformer等主流CNN和ViT模型。
 
训练设置：遵循Swin-Transformer的配置（如AdamW优化器、300epoch训练），确保公平比较。
 
创新方法
自适应扩张分割算法：动态调整分区扩张率（如h/m, w/m），平衡全局感知与计算效率。
 
轻量化Gaze分支：仅增加k²nc的计算量（k为卷积核大小），几乎不额外消耗资源。
 
主要结果
 1. ImageNet分类
 - GG-T（28M参数）Top-1准确率达82.0%，超越参量更大的DeiT-B（81.8%）和PVT-Large（81.7%）。
 - 相比同规模的Swin-T（81.2%），性能提升0.8%，证明双分支设计的有效性。
ADE20K语义分割
单尺度测试下，GG-T的mIoU为46.4%，优于Swin-T（44.5%）和ResNet50（42.1%）。
 
多尺度测试进一步提升至47.2%，接近更大模型Swin-S（49.5%）的性能。
 
COCO目标检测
在Mask R-CNN框架下，GG-T的box AP达44.1，高于Swin-T（43.7）和PVT-Small（40.4）。
 
结论与价值
 GG-Transformer通过仿生双分支设计，首次在ViT中实现长距离依赖与局部上下文的协同建模，其线性计算复杂度使其可扩展至高分辨率任务。科学价值体现在：
 1. 提出“全局稀疏注意力+局部卷积补偿”的新范式，为ViT架构设计提供新思路。
 2. 实验证明，在相同计算成本下，性能优于现有高效ViT（如Swin-Transformer）。应用上，该模型适合医疗影像分割、自动驾驶等高分辨率视觉场景。
研究亮点
 1. 仿生创新：首次将人类视觉的“扫视-凝视”机制转化为可计算的Transformer模块。
 2. 效率突破：通过自适应扩张分割，实现自注意力的线性复杂度与全局感知并存。
 3. 广泛适用性：在分类、检测、分割任务中均表现优异，验证了通用性。
其他发现
 消融实验表明：
 - 单独使用Glance或Gaze分支均会导致性能下降（分别降低1.29%和1.74%），证实双分支互补的必要性。
 - 自适应Gaze核（如9×9）比固定核（3×3）效果更优，因其与扩张率匹配。
该研究为ViT在高分辨率视觉任务中的应用提供了高效解决方案，未来可探索其在视频分析或多模态学习中的潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问