分享自:

基于跨尺度注意力的多功能视觉变换器Crossformer++

期刊:ieee transactions on pattern analysis and machine intelligenceDOI:10.1109/tpami.2023.3341806

学术研究报告:CrossFormer++——基于跨尺度注意力的多功能视觉Transformer模型


一、作者及发表信息

本研究由Wenxiao Wang(浙江大学)、Wei Chen(浙江大学CAD&CG国家重点实验室)、Qibo Qiu(浙江实验室)、Long Chen(香港科技大学)、Boxi Wu(浙江大学)、Binbin Lin(浙江大学)、Xiaofei He(IEEE高级会员,浙江大学)及Wei Liu(IEEE会士,腾讯数据平台)共同完成,发表于IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)2024年5月刊(第46卷第5期)。代码已开源(GitHub: cheerss/crossformer)。


二、学术背景

研究领域:计算机视觉与深度学习,聚焦于视觉Transformer(ViT)架构的创新。
研究动机:现有ViT模型(如Swin Transformer、PVT)虽通过局部注意力机制降低计算成本,但未显式利用多尺度特征,而多尺度特征对图像分类、目标检测等任务至关重要。此外,传统ViT存在自注意力图膨胀(enlarging self-attention maps)振幅爆炸(amplitude explosion)两大问题,影响模型性能。
研究目标:提出CrossFormer++,通过跨尺度注意力机制和动态优化策略,提升ViT在多任务中的表现。


三、研究流程与方法

1. 核心模块设计

(1)跨尺度嵌入层(Cross-scale Embedding Layer, CEL)
  • 功能:将输入图像通过不同尺寸的卷积核(如4×4、8×8、16×16、32×32)采样多尺度图像块(patch),拼接后生成跨尺度令牌(token)。
  • 创新点
    • 金字塔结构:不同阶段(stage)使用不同尺度的卷积核,形成分层特征。
    • 维度动态分配:大卷积核分配较少通道以降低计算量(如32×32核仅分配8维,而4×4核分配40维)。
(2)长短距离注意力(Long-Short Distance Attention, LSDA)
  • 设计:将自注意力模块拆分为短距离注意力(SDA)长距离注意力(LDA)
    • SDA:局部窗口内计算注意力(如3×3邻域),捕获细粒度特征。
    • LDA:按固定间隔采样令牌(如间隔3像素),建立全局依赖。
  • 优势:跨尺度嵌入为LDA提供上下文信息,解决远距离令牌关联难题。
(3)动态位置偏置(Dynamic Position Bias, DPB)
  • 作用:替代传统相对位置编码(Relative Position Bias, RPB),通过MLP动态生成位置偏置,支持可变输入尺寸。

2. 优化策略

(1)渐进组大小(Progressive Group Size, PGS)
  • 问题发现:深层Transformer的自注意力图趋于均匀分布,与CNN类似(浅层局部、深层全局)。
  • 解决方案:从浅层到深层逐步扩大组大小(如阶段1-4分别设为4×4、4×4、14×14、7×7),平衡计算效率与全局建模能力。
(2)振幅冷却层(Amplitude Cooling Layer, ACL)
  • 问题发现:深层激活值振幅激增(如第22层振幅为第1层的300倍),导致训练不稳定。
  • 解决方案:插入轻量级ACL(含深度卷积+归一化层),周期性冷却振幅,无残差连接以阻断振幅累积。

3. 实验设计

  • 任务:图像分类(ImageNet)、目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)。
  • 基线模型:对比Swin、PVT、DeiT等12种ViT变体。
  • 训练设置:AdamW优化器、300epoch训练,数据增强包括RandAugment、MixUp、CutMix。

四、主要结果

  1. 图像分类:CrossFormer++在ImageNet上超越Swin Transformer 1.2%(84.2% vs. 83.0%),参数量相近。
  2. 密集预测任务
    • 目标检测(RetinaNet):CrossFormer++-B的AP达49.5,优于ScalableViT(+1.2 AP)。
    • 语义分割(ADE20K):结合UperNet头,mIoU提升2.0%(50.4% vs. 48.4%)。
  3. 消融实验
    • 跨尺度嵌入:相比单尺度模型,准确率提升1%(82.5% vs. 81.5%)。
    • PGS策略:手动设计组大小比线性缩放策略更有效(83.2% vs. 82.6%)。

五、结论与价值

科学价值
1. 提出跨尺度注意力机制,首次在ViT中显式融合多尺度特征。
2. 揭示ViT深层振幅爆炸现象,并提出通用解决方案ACL。
应用价值
- CrossFormer++可作为通用视觉骨干网络,适配分类、检测、分割等多任务,尤其擅长密集预测任务。


六、研究亮点

  1. 方法论创新
    • CEL与LSDA的结合解决了ViT多尺度特征缺失问题。
    • DPB支持可变输入尺寸,提升模型灵活性。
  2. 工程贡献
    • ACL仅增加0.1%计算量,但稳定训练过程。
    • PGS为ViT分组策略提供新范式,启发后续研究。

七、其他价值

  • 开源与可复现性:代码与预训练模型均已公开,支持下游任务微调。
  • 跨领域启示:PGS和ACL可迁移至其他ViT架构(如Swin),普适性强。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com