图像等于16x16文字：大规模图像识别中的Transformer

分享自：
图像等于16x16文字：大规模图像识别中的Transformer

期刊:ICLR 2021
研究报告一、主要作者及机构信息这篇论文题为《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》，发表在 ICLR 2021 会议上。论文的主要作者包括 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai 等，均来自 Google Research 的 Brain Team。主要通讯作者为 Alexey Dosovitskiy 和 Neil Houlsby，联系邮箱为 {adosovitskiy, neilhoulsby}@google.com。
二、研究背景与研究目标近年来，Transformer 模型因其在自然语言处理（Natural Language Processing, NLP）领域的成功而备受关注。Transformer 架构起初由 Vaswani 等人（2017 年）提出，其通过自注意力机制（Self-Attention）捕捉序列中的全局依赖关系，已成为 NLP 任务的主流模型。然而，在计算机视觉（Computer Vision, CV）领域，卷积神经网络（Convolutional Neural Networks, CNNs）仍然是主流方法。CNNs 通过局部感受野（Locality）和空间平移等归纳偏置（Inductive Bias）的内置设计，在各种图像任务中表现出色。
一些研究尝试引入自注意力机制以增强传统 CNN 模型，或直接用某些 Transformer 替代 CNN 的组成部分。然而，由于硬件加速器中针对注意力机制的高效实现尚未成熟，完全基于 Transformer 的视觉架构应用较少，同时其效果也尚未完全证明。
本研究的目标是检验纯粹基于 Transformer 的模型是否能够在图像分类任务中达到或超越 CNN 的性能。研究者引入了 Vision Transformer（简称 ViT），并通过大规模数据预训练和迁移学习，尝试验证其在图像识别任务中的适用性。
三、研究方法与详细流程（1）模型设计与原理研究者开发了一种称为 Vision Transformer（ViT）的新模型，其架构基于 NLP 中的标准 Transformer。研究中提出了一种方法，即将图像分割为固定大小的图块（Patches），每个图块被视为一个独立的“单词”（Token）。然后，研究者对这些图块进行线性嵌入（Linear Embedding），并添加位置编码（Positional Embedding）。以此构建的序列作为输入传递给 Transformer 编码器。
在每个 Transformer 编码器层中，采用多头自注意力机制（Multi-Headed Self-Attention, MSA）和多层感知器（Multi-Layer Perceptron, MLP）交替堆叠，以捕捉图像中全局和局部信息。模型架构中为分类任务引入了一个附加的分类标记（Classification Token, [CLASS]）。
（2）模型细节与变体设计论文设计了多个模型变体，包括 Vit-Base、Vit-Large 和 Vit-Huge，用以测试不同模型规模的性能差异。其变体区别在于编码层的数量、隐藏向量维度（Hidden Size d）、多层感知器的中间层大小（MLP Size），以及注意力头的数量。模型变体的具体参数参见文章的表格总结。
（3）预训练与迁移学习ViT 模型主要在两个大规模数据集上进行预训练： 1. ImageNet-21k：包括2100万张图像，21k个类； 2. JFT-300M：包含3亿多张高分辨率图像，18k个类。
预训练所用优化器为 Adam，采用了线性学习率预热和权重衰减等正则化策略。实验中还细致地比较了不同数据预训练规模对模型性能的影响。此外，为实现迁移学习，研究者在多个下游任务（例如 CIFAR、Oxford Pets 和 VTAB）上对模型进行微调（Fine-Tuning）。
（4）对比实验研究者对 ViT 的性能和计算成本进行了详细对比，选用了 ResNet 系列 CNNs 作为参照基线。这些实验不仅比较了模型的准确性，还考察了预训练计算成本（如 TPU 时间）与效能的平衡。
四、核心研究结果（1）效果对比在采用 JFT-300M 数据集的预训练条件下，ViT 超越了 ResNet 等主流 CNN 模型： 在 ImageNet 上，ViT-H/14 达到 88.55% 的准确率；
在 CIFAR-100 数据集上，ViT 准确率达到 94.55%；
对 VTAB 的19个任务迁移学习中（包括医学影像、卫星图片分析等），ViT 表现优于 ResNet。
ViT 在大规模数据（如 3 亿张图像）上训练的优势尤为突出。当数据量较小时，CNN 的归纳偏置（如空间平移等特性）更有利。
（2）计算效率ViT 在大规模情况下表现出更优的计算效率。与同尺寸的 ResNet 模型相比，ViT 达到相同时的表现需要的训练计算资源更少。例如，ViT-L/16 相较于 ResNet152x4，每预训练周期实际计算成本仅为 25%。
（3）模型特性分析通过自注意力（Attention Maps）的可视化，研究者发现： - ViT 模型的注意力权重能够在较低层次捕获全局信息，同时一些注意力头保持了局部聚焦； - 通过分析平均注意力距离，表明 ViT 的信息整合过程逐层变得更加全域化。
五、研究结论与科学价值通过本研究，作者证明了纯粹基于 Transformer 的方法可以应用于图像分类任务，且具备极好的扩展能力。具体结论如下： 1. 架构创新：用统一 Transformer 进行视觉任务建模，打破了对 CNN 的依赖框架。 2. 数据规模驱动的模型性能：研究表明，当训练数据规模足够大时，归纳偏置的减弱不会降低性能，反而可以通过学习更丰富的数据模式提升模型能力。 3. 实用价值：由于 ViT 在计算成本上的显著优势，其有望推动工业界在大规模、廉价模型预训练上的应用。
六、研究亮点ViT 模型仅依赖图像的矩形切片拆分和简单的线性嵌入，相较于复杂的卷积特性设计，展示了极简架构的潜力。
实验报告全面，涵盖从基础功能实验到多任务迁移学习实验等多个视角。
提供了对注意力机制在视觉任务中表现的经验分析，例如头部注意力分布与层次递进。
七、后续挑战与研究方向本研究提出了重要的未来研究方向，包括： - 在检测与分割等场景中推广 ViT； - 进一步优化 Transformer 的自监督学习任务以缩小与监督学习的性能差距； - 探索更多超大规模模型的可能性，验证其是否持续改进性能。
这篇论文为 Transformer 在图像领域的应用开辟了新道路，并在视觉计算领域确定了一条新的研究路线。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问