如何训练您的视觉变换器？数据、增强和正则化在视觉变换器中的应用

分享自：
如何训练您的视觉变换器？数据、增强和正则化在视觉变换器中的应用

期刊:transactions on machine learning research
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
视觉Transformer（ViT）训练的系统性实证研究：数据增强与正则化的作用
作者及机构
 本研究由Google Research Brain Team的Andreas Steiner、Alexander Kolesnikov、Xiaohua Zhai等学者主导，独立研究者Ross Wightman参与合作。论文于2022年5月发表在期刊*Transactions on Machine Learning Research*上。
学术背景
 视觉Transformer（Vision Transformer, ViT）在图像分类、目标检测等任务中表现出色，但其性能高度依赖大规模训练数据。与卷积神经网络（CNN）相比，ViT的归纳偏置较弱，在小规模数据集上容易过拟合，需依赖数据增强（Augmentation）和模型正则化（Regularization，合称“AugReg”）提升泛化能力。然而，此前缺乏对数据规模、AugReg、模型大小和计算预算之间交互作用的系统性研究。本研究旨在填补这一空白，为资源有限的实践者提供指导。
研究流程与方法
 1. 实验设计
 - 数据集：使用公开数据集ImageNet-1k（130万图像）和ImageNet-21k（1400万图像），并与私有数据集JFT-300M（3亿图像）对比。
 - 模型配置：涵盖不同规模的ViT模型（如ViT-Ti、ViT-S、ViT-B、ViT-L）及混合架构（如ResNet与ViT结合的R+Ti/16）。
 - AugReg策略：
 - 数据增强：结合RandAugment（参数包括层数l、强度m）和Mixup（混合系数α）。
 - 正则化：随机深度（Stochastic Depth）和Dropout（概率0.1）。
 - 训练与微调：
 - 预训练：使用Adam优化器，批量大小4096，余弦学习率调度，30或300个epoch。
 - 微调：在VTAB基准（19个任务）上测试迁移性能，包括自然图像（如CIFAR-100）、专业图像（如卫星图像Resisc45）和结构化任务（如KITTI距离估计）。
关键实验
数据规模与AugReg的替代效应：比较不同数据规模下AugReg对模型性能的影响。
 
迁移学习对比从头训练：评估小规模数据集（如Pets37）上两种策略的效率和性能差异。
 
模型选择分析：探究基于上游验证准确率选择预训练模型的可行性。
 
数据分析
通过超过5万个模型的训练结果，量化AugReg与数据规模的等效关系（如AugReg可等效于10倍数据增长）。
 
使用统一代码库（JAX/Flax）和硬件（TPU）确保实验一致性，避免因实现差异引入噪声。
 
主要结果
 1. AugReg的等效数据增益
 - 在ImageNet-1k上应用AugReg的ViT模型，性能与未增强的ImageNet-21k模型相当（图1）。例如，ViT-B/16在ImageNet-1k+AugReg下的准确率（80%）接近其在ImageNet-21k下的表现（80.46%）。
 - 延长计算预算（300 epoch）时，ImageNet-21k+AugReg模型甚至超越JFT-300M训练的同类模型（ViT-L/16在ImageNet-21k下准确率85.59%，优于JFT-300M的84.15%）。
迁移学习的优势
对于小数据集（如Pets37），从头训练ViT需消耗100倍计算资源仍无法达到迁移模型的性能（图2）。例如，ViT-B/16在Pets37上微调仅需500步即可达到75%准确率，而从头训练需30万步且最高仅70%。
 
数据规模的泛化性
预训练数据量越大，模型在多样化下游任务（VTAB）上的迁移性能越强（图3）。例如，ImageNet-21k预训练的ViT-L/16在自然图像任务中平均准确率达91.7%，高于ImageNet-1k模型的85.2%。
 
AugReg与正则化的权衡
数据增强的收益普遍高于模型正则化。在ImageNet-21k上，正则化仅对最大模型（ViT-L/16）有益，对小模型反而损害性能（图4、7）。
 
结论与价值
 1. 实践指导
 - 推荐预训练模型：优先选择基于ImageNet-21k训练的模型，因其泛化性更强（图5）。
 - 计算-性能平衡：AugReg可显著降低数据需求，但需匹配足够的计算预算（如300 epoch）。
科学意义
 首次系统量化了ViT训练中数据、AugReg、模型规模和计算资源的交互作用，揭示了“数据增强等效于10倍数据扩展”的规律。
 
为资源受限场景提供了高效训练方案，推动ViT在工业部署中的应用。
 
研究亮点
 1. 大规模实证：发布超过5万个训练模型，覆盖多样化的超参数组合，成为ViT研究的宝贵资源。
 2. 方法创新：统一实验框架（如TensorFlow Datasets和JAX代码库）确保结果可比性。
 3. 颠覆性发现：挑战了“大数据优先”的传统认知，证明AugReg和计算优化可替代部分数据需求。
其他价值
 - 公开代码和模型（GitHub），支持社区复现与扩展研究。
 - 揭示了ImageNet-1k验证指标的局限性（因数据重叠导致过拟合），建议采用独立数据集（如ImageNetV2）进行评估。
这篇报告全面覆盖了研究的背景、方法、结果和意义，尤其突出了数据增强与计算预算的协同效应，为ViT的实际应用提供了重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问