Seaformer++:用于移动视觉识别的增强型轴向Transformer架构
SEAFormer++——为移动视觉识别设计的高效Transformer架构 研究背景与问题提出 近年来,计算机视觉领域经历了从卷积神经网络(CNN)到基于Transformer的方法的重大转变。然而,尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力,其高昂的计算成本和内存需求使其难以部署在移动设备上,尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求,研究者们提出了多种轻量化方法,例如局部注意力机制、轴向注意力(Axial Attention)和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。 针对这一挑战,Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer(SEAForm...