《学习可迁移视觉模型的自然语言监督》
这篇文章名为《Learning Transferable Visual Models from Natural Language Supervision》,作者包括 Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh 等人,隶属于 OpenAI,发表于《Proceedings of the 38th International Conference on Machine Learning (PMLR 139, 2021)》。这是一篇有关计算机视觉领域的原始科学研究论文,主要探索如何通过自然语言监督来学习通用、可迁移的视觉模型。
目前的最先进(SOTA,State-of-the-Art)计算机视觉系统主要通过对固定的、预定义的目标类别进行监督学习来构建。但这种传统形式的监督学习严重依赖数据集中的人工标注,这对模型通用性和使用灵活性造成了限制。此外,在自然语言处理(NLP)领域,预训练技术已经取得显著成功,其训练的数据集规模巨大,来源主要是未标注的文本数据,这启发了研究者思考:类似的方法是否可以迁移到计算机视觉领域,从大规模互联网数据中通过自然语言监督获取通用视觉特征?
本研究的主要目标是开发一种基于自然语言监督的高效可扩展方法,从而训练计算机视觉模型能够直接从互联网大规模(图像,文本)配对的数据中学习,并实现零样本迁移(Zero-Shot Transfer)到下游任务。研究希望通过对模型的全面分析,包括在多个主流视觉任务数据集上的性能对比、训练任务的新颖性、模型的鲁棒性等,为自然语言与视觉之间的联合建模开辟新的方向。
该研究新构建了一个包含4亿对(图像,文本)配对的数据集,称之为“WebImageText(WIT)”。其数据来源广泛,覆盖多种视觉概念。而类似之前的工作,如 MS-COCO 和 Visual Genome 数据集,虽然数据质量高,但数据量远小于现代标准。相比之下,WIT 数据集实现了比上述数据集规模更大的拓展,具有和 GPT-2 的 WebText 数据集类似的总词量。
作者选择了一种对比学习方法(Contrastive Objective)来构建模型,并称之为 CLIP(Contrastive Language-Image Pretraining)。CLIP 的核心是一个多模态嵌入空间:图像通过图像编码器(如 ResNet 或 Vision Transformer),文本通过文本编码器(基于 Transformer)分别生成特征表示,这两个特征通过余弦相似度进行对比学习,从而最大化一批(图像,文本)真实配对的相似度,同时最小化错误配对的相似度。
CLIP 的训练包括一个对称交叉熵损失(Symmetric Cross Entropy Loss),通过大规模计算来优化这种对比目标,一次性提升视觉和文本的表征能力。
研究采用两种架构: 1. 图像编码器:主要使用了 ResNet 和新颖的 Visual Transformer(ViT),并对其结构进行了优化,如加入注意力池化机制(Attention Pooling)。 2. 文本编码器:基于 Transformer(12 层,512 宽,8 个注意力头),输入经过字节对编码(BPE,Byte Pair Encoding)处理。
作者训练了一系列模型,包括 5 个不同规模的 ResNet 和 3 个 Vision Transformer,最大模型(RN50x64)训练 18 天,使用了 592 张 V100 GPU,体现了大规模计算性能。
在下游任务中,CLIP 可通过零样本方式进行迁移,即模型使用自然语言描述生成目标任务的分类器,而无需任何微调。这种能力被广泛应用于多个标准计算机视觉数据集,以评估任务学习能力。此外,作者还实验性地使用了线性分类器(Linear Probe)来研究 CLIP 的表征学习能力。
CLIP 在超过 30 个视觉数据集上的任务测试中表现优越,包括目标分类 (ImageNet, CIFAR-10)、文本识别(OCR)、动作识别(Action Recognition, 如 UCF101 和 Kinetics700)、定位任务(Geo-Localization)等: 1. 在 ImageNet 零样本分类的准确率达到了 76.2%,与 ResNet50 完全监督模型持平,而后者基于 128 万标注样本训练。 2. 在小数据集 STL-10 的分类任务中,CLIP 零样本精度达到了 99.3%,为当前最新的结果。 3. 在视频动作识别任务 Kinetics700 上,CLIP 提升了 14.5%,说明其对动词相关视觉概念的建模能力优于只看名词监督的传统方法。
与线性探针的对比显示,基于 CLIP 的特征输送可以在多个视觉任务中实现接近甚至超过传统监督学习和自监督学习方法的表现。使用 Vision Transformer 的 CLIP 模型,与 EfficientNet、SimCLR 等经典表征学习方法相比,计算效率提高了约 3 倍,总体性能超越了现有基准。
CLIP 展现出显著的鲁棒性(Robustness): 1. 在自然分布偏移下的数据上,例如 ImageNet-A 和 ImageNet-R,CLIP 的分布鲁棒性较传统模型提高了 75%。 2. 零样本的 CLIP 模型突破了以往 ImageNet 模型的鲁棒性边界,表现出比监督模型更好的分布外泛化能力。
对 35 个评估数据集的分析表明,与 CLIP 训练数据集重叠的比例平均仅为 3.2%。在极少数出现重复的情况下,其对整体性能的影响仅为 0.1% 到 0.6%,即 CLIP 的性能并非依靠数据重复,而是来源于模型本身的能力。
尽管 CLIP 展现出强大的能力,但其性能仍无法全面超越现有领域的整体 SOTA 模型。此外,模型在复杂任务(如卫星图像分类或交通标志识别)表现较弱,反映出跨模态监督的局限性。本研究指出,增加计算能力和提高计算效率将是未来提升这种系统的主要挑战。
《Learning Transferable Visual Models from Natural Language Supervision》展示了如何利用自然语言监督训练出具有强大迁移能力的视觉模型,对计算机视觉和多模态领域的研究具有里程碑意义。这种探索大大拓展了研究者对模型建模普适性、效率和任务适应力的理解,具有显著的科学和社会潜力。