分享自:

早期卷积助力视觉Transformer实现更优性能

期刊:35th conference on neural information processing systems (NeurIPS 2021)

本研究由Facebook AI Research (FAIR)的Tete Xiao, Mannat Singh, Eric Mintun, Piotr Dollár, Ross Girshick与加州大学伯克利分校(UC Berkeley)的Tete Xiao(兼)和Trevor Darrell合作完成。该论文发表于第35届神经信息处理系统大会(NeurIPS 2021),并在arXiv预印本平台于2021年10月25日发布了更新版本(arXiv:2106.14881v3)。

这项研究属于计算机视觉领域,具体关注深度学习模型架构的设计与优化。研究的出发点是解决一个在实践中观察到的重要问题:相比现代卷积神经网络(Convolutional Neural Networks, CNNs),视觉变换器(Vision Transformer, ViT)模型表现出较差的“可优化性”。ViT模型对优化器选择(如AdamW vs. SGD)、超参数(如学习率、权重衰减)以及训练周期的长度都异常敏感,而CNN模型则通常易于优化且对训练设置更为鲁棒。研究者旨在探究导致这种差异的根本原因,并寻求改进ViT优化性能的简单而有效的架构修改。他们的目标并非提出一个全新的混合模型,而是希望通过最小的改动来诊断和解决ViT在早期训练阶段存在的问题,从而推动对ViT模型优化行为的理解,并提出更具鲁棒性的架构选择。

研究的核心假设是:ViT模型的可优化性问题主要源于其早期视觉处理步骤,即“分块化词干”。标准的ViT模型将输入图像分割为一系列不重叠的p×p图像块(默认p=16),这一过程是通过一个步长(stride)为p、卷积核大小为p×p的卷积层(即“分块化卷积”)实现的。这种大卷积核、大步长的设计与CNN中普遍采用的最佳实践(即使用多个小卷积核、小步长的卷积层堆叠作为网络起始部分,即“卷积词干”)背道而驰。研究者推测,这种非典型的设计可能是ViT难以优化的根源。为了验证这一假设,他们设计了一系列严谨的对比实验。

研究的工作流程主要包括以下几个部分:首先是模型定义与修改。研究者创建了两组对应的ViT模型,分别称为ViT-p(使用原始分块化词干)和ViT-c(使用卷积词干)。为了确保公平比较,ViT-c模型中的卷积词干被设计得非常轻量,仅由约5层步长为2的3x3卷积组成,其计算量大约等同于一个Transformer块。为了精确匹配两者的计算量、参数量和运行时间,研究者在将ViT-p的分块化词干替换为卷积词干时,会相应减少一个Transformer块。模型复杂度覆盖了从1 GigaFlops到36 GigaFlops的广泛范围。这一设计确保了两种模型在绝大多数计算上完全一致,唯一的差异就在于最初的视觉处理步骤。这种“最小变量”控制是本研究方法学上的关键亮点,使得任何观察到的性能差异都能清晰地归因于词干设计的改变。

其次是建立并应用“可优化性”的量化度量标准。由于“难以优化”是一个定性描述,研究者创新性地定义了几个定量指标来衡量模型的优化特性:1)训练时长稳定性:衡量模型在不同训练周期(如50, 100, 200 epoch)下的精度与渐进精度(以400 epoch为基准)之间的差距,反映收敛速度。2)优化器稳定性:衡量同一模型使用AdamW和SGD优化器所能达到的最终精度之间的差距,反映模型对优化器选择的敏感度。3)超参数(学习率、权重衰减)稳定性:通过误差分布函数来评估。研究者为每个模型随机采样多组学习率和权重衰减值进行短周期训练,然后绘制所有训练结果的误差累积分布曲线。曲线越陡峭,说明模型对不同超参数组合的表现越集中,即稳定性越高;曲线越平缓,则说明模型对超参数选择非常敏感。4)峰值性能:在精心控制所有其他训练设置(数据增强、正则化方法、总训练周期数)并细致调优学习率和权重衰减后,模型能达到的最高精度。

基于这些定义,研究展开了详尽的稳定性实验。所有实验均在ImageNet-1k数据集上进行。研究比较了ViT-p、ViT-c以及作为CNN参考基准的RegNetY模型。实验结果有力地支持了研究假设。在训练时长稳定性方面,ViT-c在所有模型复杂度下都比ViT-p收敛得更快。例如,在50个epoch的短周期训练下,ViT-p-1gf的误差比其400 epoch结果高约10%,而ViT-c-1gf将此差距缩小到了约6%,更接近于CNN的收敛速度。在优化器稳定性方面,结果更为显著。ViT-p模型在使用SGD时性能急剧下降,与使用AdamW的差距最高可达10%,并且在大模型长周期训练下常常无法收敛。相反,ViT-c模型在SGD和AdamW下的性能差距非常小(小于0.2%),与RegNetY模型的表现相似,意味着ViT-c可以使用任一种优化器进行有效训练。在超参数稳定性方面,通过误差分布函数分析显示,ViT-c对学习率和权重衰减变化的鲁棒性远高于ViT-p,其EDF曲线更为陡峭,甚至与或优于参考的CNN模型。这在实际应用中意味着为ViT-c寻找合适的超参数组合要容易得多。

最后,研究者在更公平的条件下评估了模型的峰值性能。他们固定了训练周期、数据增强方案、正则化方法等,并对学习率和权重衰减进行了精简但统一的调优。比较了在ImageNet-1k上从头训练以及在更大规模的ImageNet-21k上预训练后再微调两种场景下的性能。结果表明:1)仅使用ImageNet-1k时,原始的ViT-p在全部复杂度范围内均无法超越最先进的CNN(如RegNetY),甚至在某些区间不及经典的ResNet。而ViT-c则更具竞争力,在中复杂度区间能够超越CNN。2)当使用ImageNet-21k进行预训练时,ViT模型从大数据中获益的能力更强。此时,ViT-c在全部训练速度谱系上都严格优于ViT-p和RegNetY。值得注意的是,即使有大规模预训练数据加持,原始的ViT-p也仅仅是与最先进的CNN持平,而未能超越。只有当ViT同时具备卷积词干和大规模预训练数据时,才能稳定地超越CNN。这些结果不仅证实了卷积词干能提升优化稳定性,也明确地提升了模型的最终精度,在ImageNet-1k上带来了约1-2个百分点的top-1准确率提升。

本研究的结论明确且具有实践指导意义:ViT模型的优化挑战与其分块化词干中使用的大步长大卷积核设计密切相关。用一个简单的、符合CNN最佳实践的轻量级卷积词干替换原有的分块化词干,能够戏剧性地改善ViT的优化行为。这种最小化的架构修改使得ViT-c模型收敛更快、对优化器和超参数的选择更鲁棒、并且最终达到了更高的精度。这些改进在从1G到36G Flops的模型复杂度谱系以及从ImageNet-1k到ImageNet-21k的数据集规模谱系上都得到了验证。因此,研究强烈建议,在所分析的模型和数据规模范围内,将标准、轻量的卷积词干作为ViT模型一个比原始设计更鲁棒、性能更高的架构选择。

这项研究的科学价值与应用价值是多方面的。在科学层面,它深入揭示了模型架构中早期处理阶段设计对全局优化动态的深远影响,挑战了“Transformer块完全取代卷积即可获得最佳性能”的简单观念,表明在模型入口处注入适度的(硬)卷积归纳偏置对于稳定训练和释放Transformer强大表示能力至关重要。这为理解视觉Transformer的优化机理提供了新的视角和实验证据。在应用层面,该研究提供了一种极其简单、计算成本几乎为零的改进方案,任何使用ViT的研究者和工程师都可以轻松采纳,从而获得更稳定、更快速的训练过程和更高的模型精度,降低了ViT的应用门槛和调优成本。这推动了ViT从“难以驾驭的研究原型”向“实用的工业级模型”的转变。

本研究的亮点突出:首先,其核心发现具有高度新颖性和启发性,即一个仅占模型总计算量约2%的微小改动(早期卷积词干)竟能对ViT的整个优化轨迹产生如此巨大的正面影响。其次,研究方法非常严谨,通过精心设计的“最小变量”对照实验(ViT-p vs. ViT-c)和一系列创新的、可量化的“可优化性”度量指标,使得论证过程清晰、有力、可信。第三,实验规模宏大且系统,覆盖了广泛的模型复杂度和数据集规模,确保了结论的普适性和鲁棒性。第四,研究不仅关注了优化稳定性,也最终证明了这种改进能转化为实实在在的峰值性能提升,并在与最先进CNN的公平比较中确立了ViT-c的优势地位。

此外,论文附录中还包含了一些有价值的补充内容,如对不同词干设计的消融实验(证明包含“分块化”层的替代设计均不如纯卷积词干)、对词干中归一化和非线性层作用的分析(发现其影响相对次要)、以及对更深层ViT模型的探索(发现卷积词干对深层模型同样有益,且深层ViT-p在更宽的超参数范围内是可训练的,这与之前的部分研究结论略有不同)。这些内容进一步巩固和支持了主文的结论。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com