分享自:

如何训练您的视觉变换器?数据、增强和正则化在视觉变换器中的应用

期刊:transactions on machine learning research

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


视觉Transformer(ViT)训练的系统性实证研究:数据增强与正则化的作用

作者及机构
本研究由Google Research Brain Team的Andreas Steiner、Alexander Kolesnikov、Xiaohua Zhai等学者主导,独立研究者Ross Wightman参与合作。论文于2022年5月发表在期刊*Transactions on Machine Learning Research*上。

学术背景
视觉Transformer(Vision Transformer, ViT)在图像分类、目标检测等任务中表现出色,但其性能高度依赖大规模训练数据。与卷积神经网络(CNN)相比,ViT的归纳偏置较弱,在小规模数据集上容易过拟合,需依赖数据增强(Augmentation)和模型正则化(Regularization,合称“AugReg”)提升泛化能力。然而,此前缺乏对数据规模、AugReg、模型大小和计算预算之间交互作用的系统性研究。本研究旨在填补这一空白,为资源有限的实践者提供指导。

研究流程与方法
1. 实验设计
- 数据集:使用公开数据集ImageNet-1k(130万图像)和ImageNet-21k(1400万图像),并与私有数据集JFT-300M(3亿图像)对比。
- 模型配置:涵盖不同规模的ViT模型(如ViT-Ti、ViT-S、ViT-B、ViT-L)及混合架构(如ResNet与ViT结合的R+Ti/16)。
- AugReg策略
- 数据增强:结合RandAugment(参数包括层数l、强度m)和Mixup(混合系数α)。
- 正则化:随机深度(Stochastic Depth)和Dropout(概率0.1)。
- 训练与微调
- 预训练:使用Adam优化器,批量大小4096,余弦学习率调度,30或300个epoch。
- 微调:在VTAB基准(19个任务)上测试迁移性能,包括自然图像(如CIFAR-100)、专业图像(如卫星图像Resisc45)和结构化任务(如KITTI距离估计)。

  1. 关键实验

    • 数据规模与AugReg的替代效应:比较不同数据规模下AugReg对模型性能的影响。
    • 迁移学习对比从头训练:评估小规模数据集(如Pets37)上两种策略的效率和性能差异。
    • 模型选择分析:探究基于上游验证准确率选择预训练模型的可行性。
  2. 数据分析

    • 通过超过5万个模型的训练结果,量化AugReg与数据规模的等效关系(如AugReg可等效于10倍数据增长)。
    • 使用统一代码库(JAX/Flax)和硬件(TPU)确保实验一致性,避免因实现差异引入噪声。

主要结果
1. AugReg的等效数据增益
- 在ImageNet-1k上应用AugReg的ViT模型,性能与未增强的ImageNet-21k模型相当(图1)。例如,ViT-B/16在ImageNet-1k+AugReg下的准确率(80%)接近其在ImageNet-21k下的表现(80.46%)。
- 延长计算预算(300 epoch)时,ImageNet-21k+AugReg模型甚至超越JFT-300M训练的同类模型(ViT-L/16在ImageNet-21k下准确率85.59%,优于JFT-300M的84.15%)。

  1. 迁移学习的优势

    • 对于小数据集(如Pets37),从头训练ViT需消耗100倍计算资源仍无法达到迁移模型的性能(图2)。例如,ViT-B/16在Pets37上微调仅需500步即可达到75%准确率,而从头训练需30万步且最高仅70%。
  2. 数据规模的泛化性

    • 预训练数据量越大,模型在多样化下游任务(VTAB)上的迁移性能越强(图3)。例如,ImageNet-21k预训练的ViT-L/16在自然图像任务中平均准确率达91.7%,高于ImageNet-1k模型的85.2%。
  3. AugReg与正则化的权衡

    • 数据增强的收益普遍高于模型正则化。在ImageNet-21k上,正则化仅对最大模型(ViT-L/16)有益,对小模型反而损害性能(图4、7)。

结论与价值
1. 实践指导
- 推荐预训练模型:优先选择基于ImageNet-21k训练的模型,因其泛化性更强(图5)。
- 计算-性能平衡:AugReg可显著降低数据需求,但需匹配足够的计算预算(如300 epoch)。

  1. 科学意义
    • 首次系统量化了ViT训练中数据、AugReg、模型规模和计算资源的交互作用,揭示了“数据增强等效于10倍数据扩展”的规律。
    • 为资源受限场景提供了高效训练方案,推动ViT在工业部署中的应用。

研究亮点
1. 大规模实证:发布超过5万个训练模型,覆盖多样化的超参数组合,成为ViT研究的宝贵资源。
2. 方法创新:统一实验框架(如TensorFlow Datasets和JAX代码库)确保结果可比性。
3. 颠覆性发现:挑战了“大数据优先”的传统认知,证明AugReg和计算优化可替代部分数据需求。

其他价值
- 公开代码和模型(GitHub),支持社区复现与扩展研究。
- 揭示了ImageNet-1k验证指标的局限性(因数据重叠导致过拟合),建议采用独立数据集(如ImageNetV2)进行评估。


这篇报告全面覆盖了研究的背景、方法、结果和意义,尤其突出了数据增强与计算预算的协同效应,为ViT的实际应用提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com