分享自:

所有标记都重要:用于训练更好视觉变换器的标记标注

期刊:35th conference on neural information processing systems (NeurIPS 2021)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


视觉Transformer训练新范式:Token Labeling方法及其高效实现

一、作者与发表信息
本研究由Zihang Jiang(新加坡国立大学)、Qibin Hou(南开大学/新加坡国立大学)、Li Yuan(北京大学)、Daquan Zhou、Yujun Shi(新加坡国立大学)、Xiaojie Jin、Anran Wang、Jiashi Feng(字节跳动)共同完成,发表于NeurIPS 2021(第35届神经信息处理系统会议)。

二、学术背景与研究目标
科学领域:计算机视觉与深度学习,聚焦视觉Transformer(Vision Transformer, ViT)的训练方法优化。
研究动机:传统ViT仅通过可学习的类别标记(class token)计算分类损失,忽略了图像块标记(patch token)中丰富的局部信息。这种单一监督方式可能限制模型性能。
背景知识:ViT通过将图像分割为块序列并输入Transformer编码器实现分类,但其依赖大规模预训练数据(如ImageNet-22K)。此前工作(如DeiT)通过知识蒸馏(knowledge distillation)提升小数据训练效果,但计算成本高。
研究目标:提出Token Labeling训练目标,利用所有图像块标记的密集监督(dense supervision)提升ViT性能,同时避免额外计算开销。

三、研究方法与流程
1. Token Labeling框架设计
- 输入处理:图像分割为16×16块,经线性投影生成标记序列(含class token)。
- 监督生成:使用预训练模型(如NFNet-F6)为每个图像块生成位置特定的多标签分数图(1000维向量,对应ImageNet类别),通过RoIAlign对齐裁剪后的图像区域。
- 损失函数:总损失为class token的交叉熵损失与所有patch token的Token Labeling损失的加权和(β=0.5):
[ L{\text{total}} = h(x{\text{cls}}, y{\text{cls}}) + \beta \cdot \frac{1}{n}\sum{i=1}^{n} h(x_i, y_i) ]
- 优势:离线生成分数图,训练时仅需插值对齐,计算成本可忽略。

  1. Mixtoken数据增强

    • 改进动机:传统CutMix在图像层面混合会导致局部块内容污染,干扰Token Labeling。
    • 方法:在块嵌入(patch embedding)后对标记序列混合,使用相同掩码混合标记及其对应标签:
      [ \hat{t} = t_1 \odot m + t_2 \odot (1-m), \quad \hat{y} = y_1 \odot m + y_2 \odot (1-m) ]
    • 效果:相比CutMix,Mixtoken在ViT上提升0.1%~0.2%准确率。
  2. 模型架构优化(LV-Vit)

    • 改进点:将ViT的块嵌入层替换为4层卷积,增强局部特征提取。
    • 参数量:设计不同规模模型(8.5M~150M参数),最高精度达86.4%(ImageNet)。
  3. 实验设置

    • 数据集:ImageNet-1K(128万训练图像)。
    • 训练细节:AdamW优化器,300 epochs,学习率随批量大小线性缩放,使用随机深度(stochastic depth)替代Dropout。
    • 评估指标:Top-1准确率、下游任务(如语义分割)迁移性能。

四、主要结果
1. ImageNet分类性能
- LV-Vit-S(26M参数):83.3% Top-1准确率,超越DeiT-S(79.9%)3.4%。
- LV-Vit-L(150M参数):86.4% Top-1,为同等规模模型最优(如CaiT-M36需271M参数达86.3%)。
- 消融实验:Token Labeling对所有标记参与率(participation rate)敏感,100%参与时性能最佳(见图4左)。

  1. 下游任务迁移

    • 语义分割(ADE20K):LV-Vit-L作为预训练模型,在UperNet框架下达到51.8 mIoU,超越Swin Transformer(49.7 mIoU)且无需ImageNet-22K预训练。
  2. 方法鲁棒性

    • 标注模型影响:即使使用较低精度标注模型(如EfficientNet-B3),Token Labeling仍能提升性能(见图4右)。
    • 模型兼容性:在DeiT、T2T-ViT等ViT变体上均有效(提升0.5%~1.5%)。

五、结论与价值
1. 科学价值:首次证明密集监督可显著提升ViT的物体定位与识别能力,为ViT训练提供新范式。
2. 应用价值
- 高效训练:无需在线教师模型,降低计算成本。
- 小数据友好:在ImageNet-1K上即可训练高性能模型。
- 下游任务泛化:提升密集预测任务(如分割)的迁移性能。

六、研究亮点
1. 方法创新:Token Labeling将图像分类转化为多标记级识别问题,利用局部监督增强全局建模。
2. 技术突破:Mixtoken解决ViT数据增强的局部污染问题,与Token Labeling天然兼容。
3. 性能标杆:150M参数模型达86.4%准确率,为当时最小模型达到此性能。

七、其他价值
- 开源资源:代码与模型已公开(GitHub仓库:https://github.com/zihangjiang/tokenlabeling)。
- 局限性:依赖预训练标注模型,但离线生成特性使其实际成本可控。


此报告完整呈现了研究的创新性、方法论严谨性及结果影响力,为后续ViT训练方法研究提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com