基于跨尺度注意力的多功能视觉变换器Crossformer++

分享自：
基于跨尺度注意力的多功能视觉变换器Crossformer++

期刊:ieee transactions on pattern analysis and machine intelligenceDOI:10.1109/tpami.2023.3341806
学术研究报告：CrossFormer++——基于跨尺度注意力的多功能视觉Transformer模型
一、作者及发表信息本研究由Wenxiao Wang（浙江大学）、Wei Chen（浙江大学CAD&CG国家重点实验室）、Qibo Qiu（浙江实验室）、Long Chen（香港科技大学）、Boxi Wu（浙江大学）、Binbin Lin（浙江大学）、Xiaofei He（IEEE高级会员，浙江大学）及Wei Liu（IEEE会士，腾讯数据平台）共同完成，发表于IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）2024年5月刊（第46卷第5期）。代码已开源（GitHub: cheerss/crossformer）。
二、学术背景研究领域：计算机视觉与深度学习，聚焦于视觉Transformer（ViT）架构的创新。
 研究动机：现有ViT模型（如Swin Transformer、PVT）虽通过局部注意力机制降低计算成本，但未显式利用多尺度特征，而多尺度特征对图像分类、目标检测等任务至关重要。此外，传统ViT存在自注意力图膨胀（enlarging self-attention maps）和振幅爆炸（amplitude explosion）两大问题，影响模型性能。
 研究目标：提出CrossFormer++，通过跨尺度注意力机制和动态优化策略，提升ViT在多任务中的表现。
三、研究流程与方法1. 核心模块设计（1）跨尺度嵌入层（Cross-scale Embedding Layer, CEL）功能：将输入图像通过不同尺寸的卷积核（如4×4、8×8、16×16、32×32）采样多尺度图像块（patch），拼接后生成跨尺度令牌（token）。
 
创新点：
 金字塔结构：不同阶段（stage）使用不同尺度的卷积核，形成分层特征。
 
维度动态分配：大卷积核分配较少通道以降低计算量（如32×32核仅分配8维，而4×4核分配40维）。
 
（2）长短距离注意力（Long-Short Distance Attention, LSDA）设计：将自注意力模块拆分为短距离注意力（SDA）和长距离注意力（LDA）：
 SDA：局部窗口内计算注意力（如3×3邻域），捕获细粒度特征。
 
LDA：按固定间隔采样令牌（如间隔3像素），建立全局依赖。
 
优势：跨尺度嵌入为LDA提供上下文信息，解决远距离令牌关联难题。
 
（3）动态位置偏置（Dynamic Position Bias, DPB）作用：替代传统相对位置编码（Relative Position Bias, RPB），通过MLP动态生成位置偏置，支持可变输入尺寸。
 
2. 优化策略（1）渐进组大小（Progressive Group Size, PGS）问题发现：深层Transformer的自注意力图趋于均匀分布，与CNN类似（浅层局部、深层全局）。
 
解决方案：从浅层到深层逐步扩大组大小（如阶段1-4分别设为4×4、4×4、14×14、7×7），平衡计算效率与全局建模能力。
 
（2）振幅冷却层（Amplitude Cooling Layer, ACL）问题发现：深层激活值振幅激增（如第22层振幅为第1层的300倍），导致训练不稳定。
 
解决方案：插入轻量级ACL（含深度卷积+归一化层），周期性冷却振幅，无残差连接以阻断振幅累积。
 
3. 实验设计任务：图像分类（ImageNet）、目标检测（COCO）、实例分割（COCO）、语义分割（ADE20K）。
 
基线模型：对比Swin、PVT、DeiT等12种ViT变体。
 
训练设置：AdamW优化器、300epoch训练，数据增强包括RandAugment、MixUp、CutMix。
 
四、主要结果图像分类：CrossFormer++在ImageNet上超越Swin Transformer 1.2%（84.2% vs. 83.0%），参数量相近。
 
密集预测任务：
 目标检测（RetinaNet）：CrossFormer++-B的AP达49.5，优于ScalableViT（+1.2 AP）。
 
语义分割（ADE20K）：结合UperNet头，mIoU提升2.0%（50.4% vs. 48.4%）。
 
消融实验：
 跨尺度嵌入：相比单尺度模型，准确率提升1%（82.5% vs. 81.5%）。
 
PGS策略：手动设计组大小比线性缩放策略更有效（83.2% vs. 82.6%）。
 
五、结论与价值科学价值：
 1. 提出跨尺度注意力机制，首次在ViT中显式融合多尺度特征。
 2. 揭示ViT深层振幅爆炸现象，并提出通用解决方案ACL。
 应用价值：
 - CrossFormer++可作为通用视觉骨干网络，适配分类、检测、分割等多任务，尤其擅长密集预测任务。
六、研究亮点方法论创新：
 CEL与LSDA的结合解决了ViT多尺度特征缺失问题。
 
DPB支持可变输入尺寸，提升模型灵活性。
 
工程贡献：
 ACL仅增加0.1%计算量，但稳定训练过程。
 
PGS为ViT分组策略提供新范式，启发后续研究。
 
七、其他价值开源与可复现性：代码与预训练模型均已公开，支持下游任务微调。
 
跨领域启示：PGS和ACL可迁移至其他ViT架构（如Swin），普适性强。
 
（全文约2000字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问