这篇论文题为《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,发表在 ICLR 2021 会议上。论文的主要作者包括 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai 等,均来自 Google Research 的 Brain Team。主要通讯作者为 Alexey Dosovitskiy 和 Neil Houlsby,联系邮箱为 {adosovitskiy, neilhoulsby}@google.com。
近年来,Transformer 模型因其在自然语言处理(Natural Language Processing, NLP)领域的成功而备受关注。Transformer 架构起初由 Vaswani 等人(2017 年)提出,其通过自注意力机制(Self-Attention)捕捉序列中的全局依赖关系,已成为 NLP 任务的主流模型。然而,在计算机视觉(Computer Vision, CV)领域,卷积神经网络(Convolutional Neural Networks, CNNs)仍然是主流方法。CNNs 通过局部感受野(Locality)和空间平移等归纳偏置(Inductive Bias)的内置设计,在各种图像任务中表现出色。
一些研究尝试引入自注意力机制以增强传统 CNN 模型,或直接用某些 Transformer 替代 CNN 的组成部分。然而,由于硬件加速器中针对注意力机制的高效实现尚未成熟,完全基于 Transformer 的视觉架构应用较少,同时其效果也尚未完全证明。
本研究的目标是检验纯粹基于 Transformer 的模型是否能够在图像分类任务中达到或超越 CNN 的性能。研究者引入了 Vision Transformer(简称 ViT),并通过大规模数据预训练和迁移学习,尝试验证其在图像识别任务中的适用性。
研究者开发了一种称为 Vision Transformer(ViT)的新模型,其架构基于 NLP 中的标准 Transformer。研究中提出了一种方法,即将图像分割为固定大小的图块(Patches),每个图块被视为一个独立的“单词”(Token)。然后,研究者对这些图块进行线性嵌入(Linear Embedding),并添加位置编码(Positional Embedding)。以此构建的序列作为输入传递给 Transformer 编码器。
在每个 Transformer 编码器层中,采用多头自注意力机制(Multi-Headed Self-Attention, MSA)和多层感知器(Multi-Layer Perceptron, MLP)交替堆叠,以捕捉图像中全局和局部信息。模型架构中为分类任务引入了一个附加的分类标记(Classification Token, [CLASS])。
论文设计了多个模型变体,包括 Vit-Base、Vit-Large 和 Vit-Huge,用以测试不同模型规模的性能差异。其变体区别在于编码层的数量、隐藏向量维度(Hidden Size d)、多层感知器的中间层大小(MLP Size),以及注意力头的数量。模型变体的具体参数参见文章的表格总结。
ViT 模型主要在两个大规模数据集上进行预训练: 1. ImageNet-21k:包括2100万张图像,21k个类; 2. JFT-300M:包含3亿多张高分辨率图像,18k个类。
预训练所用优化器为 Adam,采用了线性学习率预热和权重衰减等正则化策略。实验中还细致地比较了不同数据预训练规模对模型性能的影响。此外,为实现迁移学习,研究者在多个下游任务(例如 CIFAR、Oxford Pets 和 VTAB)上对模型进行微调(Fine-Tuning)。
研究者对 ViT 的性能和计算成本进行了详细对比,选用了 ResNet 系列 CNNs 作为参照基线。这些实验不仅比较了模型的准确性,还考察了预训练计算成本(如 TPU 时间)与效能的平衡。
通过自注意力(Attention Maps)的可视化,研究者发现: - ViT 模型的注意力权重能够在较低层次捕获全局信息,同时一些注意力头保持了局部聚焦; - 通过分析平均注意力距离,表明 ViT 的信息整合过程逐层变得更加全域化。
通过本研究,作者证明了纯粹基于 Transformer 的方法可以应用于图像分类任务,且具备极好的扩展能力。具体结论如下: 1. 架构创新:用统一 Transformer 进行视觉任务建模,打破了对 CNN 的依赖框架。 2. 数据规模驱动的模型性能:研究表明,当训练数据规模足够大时,归纳偏置的减弱不会降低性能,反而可以通过学习更丰富的数据模式提升模型能力。 3. 实用价值:由于 ViT 在计算成本上的显著优势,其有望推动工业界在大规模、廉价模型预训练上的应用。
本研究提出了重要的未来研究方向,包括: - 在检测与分割等场景中推广 ViT; - 进一步优化 Transformer 的自监督学习任务以缩小与监督学习的性能差距; - 探索更多超大规模模型的可能性,验证其是否持续改进性能。
这篇论文为 Transformer 在图像领域的应用开辟了新道路,并在视觉计算领域确定了一条新的研究路线。