学术研究报告:CrossFormer++——基于跨尺度注意力的多功能视觉Transformer模型
一、作者及发表信息
本研究由Wenxiao Wang(浙江大学)、Wei Chen(浙江大学CAD&CG国家重点实验室)、Qibo Qiu(浙江实验室)、Long Chen(香港科技大学)、Boxi Wu(浙江大学)、Binbin Lin(浙江大学)、Xiaofei He(IEEE高级会员,浙江大学)及Wei Liu(IEEE会士,腾讯数据平台)共同完成,发表于IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)2024年5月刊(第46卷第5期)。代码已开源(GitHub: cheerss/crossformer)。
二、学术背景
研究领域:计算机视觉与深度学习,聚焦于视觉Transformer(ViT)架构的创新。
研究动机:现有ViT模型(如Swin Transformer、PVT)虽通过局部注意力机制降低计算成本,但未显式利用多尺度特征,而多尺度特征对图像分类、目标检测等任务至关重要。此外,传统ViT存在自注意力图膨胀(enlarging self-attention maps)和振幅爆炸(amplitude explosion)两大问题,影响模型性能。
研究目标:提出CrossFormer++,通过跨尺度注意力机制和动态优化策略,提升ViT在多任务中的表现。
三、研究流程与方法
1. 核心模块设计
(1)跨尺度嵌入层(Cross-scale Embedding Layer, CEL)
- 功能:将输入图像通过不同尺寸的卷积核(如4×4、8×8、16×16、32×32)采样多尺度图像块(patch),拼接后生成跨尺度令牌(token)。
- 创新点:
- 金字塔结构:不同阶段(stage)使用不同尺度的卷积核,形成分层特征。
- 维度动态分配:大卷积核分配较少通道以降低计算量(如32×32核仅分配8维,而4×4核分配40维)。
(2)长短距离注意力(Long-Short Distance Attention, LSDA)
- 设计:将自注意力模块拆分为短距离注意力(SDA)和长距离注意力(LDA):
- SDA:局部窗口内计算注意力(如3×3邻域),捕获细粒度特征。
- LDA:按固定间隔采样令牌(如间隔3像素),建立全局依赖。
- 优势:跨尺度嵌入为LDA提供上下文信息,解决远距离令牌关联难题。
(3)动态位置偏置(Dynamic Position Bias, DPB)
- 作用:替代传统相对位置编码(Relative Position Bias, RPB),通过MLP动态生成位置偏置,支持可变输入尺寸。
2. 优化策略
(1)渐进组大小(Progressive Group Size, PGS)
- 问题发现:深层Transformer的自注意力图趋于均匀分布,与CNN类似(浅层局部、深层全局)。
- 解决方案:从浅层到深层逐步扩大组大小(如阶段1-4分别设为4×4、4×4、14×14、7×7),平衡计算效率与全局建模能力。
(2)振幅冷却层(Amplitude Cooling Layer, ACL)
- 问题发现:深层激活值振幅激增(如第22层振幅为第1层的300倍),导致训练不稳定。
- 解决方案:插入轻量级ACL(含深度卷积+归一化层),周期性冷却振幅,无残差连接以阻断振幅累积。
3. 实验设计
- 任务:图像分类(ImageNet)、目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)。
- 基线模型:对比Swin、PVT、DeiT等12种ViT变体。
- 训练设置:AdamW优化器、300epoch训练,数据增强包括RandAugment、MixUp、CutMix。
四、主要结果
- 图像分类:CrossFormer++在ImageNet上超越Swin Transformer 1.2%(84.2% vs. 83.0%),参数量相近。
- 密集预测任务:
- 目标检测(RetinaNet):CrossFormer++-B的AP达49.5,优于ScalableViT(+1.2 AP)。
- 语义分割(ADE20K):结合UperNet头,mIoU提升2.0%(50.4% vs. 48.4%)。
- 消融实验:
- 跨尺度嵌入:相比单尺度模型,准确率提升1%(82.5% vs. 81.5%)。
- PGS策略:手动设计组大小比线性缩放策略更有效(83.2% vs. 82.6%)。
五、结论与价值
科学价值:
1. 提出跨尺度注意力机制,首次在ViT中显式融合多尺度特征。
2. 揭示ViT深层振幅爆炸现象,并提出通用解决方案ACL。
应用价值:
- CrossFormer++可作为通用视觉骨干网络,适配分类、检测、分割等多任务,尤其擅长密集预测任务。
六、研究亮点
- 方法论创新:
- CEL与LSDA的结合解决了ViT多尺度特征缺失问题。
- DPB支持可变输入尺寸,提升模型灵活性。
- 工程贡献:
- ACL仅增加0.1%计算量,但稳定训练过程。
- PGS为ViT分组策略提供新范式,启发后续研究。
七、其他价值
- 开源与可复现性:代码与预训练模型均已公开,支持下游任务微调。
- 跨领域启示:PGS和ACL可迁移至其他ViT架构(如Swin),普适性强。
(全文约2000字)