分享自:

AdaptFormer:视觉Transformer的适应性扩展

期刊:36th Conference on Neural Information Processing Systems (NeurIPS 2022)

这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:


一、作者与机构
本研究由Shoufa Chen、Chongjian Ge、Zhan Tong、Jiangliu Wang、Yibing Song、Jue Wang和Ping Luo共同完成。其中,Shoufa Chen、Chongjian Ge和Ping Luo来自The University of Hong Kong,Zhan Tong、Jiangliu Wang、Yibing Song和Jue Wang则来自Tencent AI Lab。该研究发表于第36届NeurIPS(Conference on Neural Information Processing Systems)会议,时间为2022年。


二、学术背景
本研究的主要科学领域是计算机视觉(Computer Vision),特别是视觉Transformer(Vision Transformers, ViTs)的迁移学习(Transfer Learning)和微调(Fine-tuning)问题。近年来,视觉Transformer在图像和视频识别任务中取得了显著成功,但其微调过程存在计算和存储资源消耗大的问题。传统的微调方法需要对整个模型进行独立且完整的微调,这在任务数量增加时变得不可行,尤其是对于拥有数十亿参数的最先进模型(如ViT-G/14)。因此,研究者提出了一种名为AdaptFormer的高效适配方法,旨在通过引入轻量级模块,显著减少微调所需的参数数量,同时提升模型的迁移能力。

本研究的目标是开发一种能够在不更新预训练模型参数的情况下,通过仅微调少量参数(少于2%)来适应多种图像和视频识别任务的框架。AdaptFormer的设计灵感来自于自然语言处理(NLP)领域的高效微调方法,但在视觉领域,这一方向尚未得到充分探索。


三、研究流程
1. 问题定义与框架设计
- 研究者首先分析了传统微调方法的局限性,特别是其计算和存储资源消耗大的问题。基于此,他们提出了AdaptFormer框架,旨在通过引入轻量级模块来减少微调所需的参数数量。 - AdaptFormer的核心是一个名为AdaptMLP的模块,该模块由两个全连接层、一个非线性激活函数和一个缩放因子组成,与原始ViT模型的前馈网络(FFN)并行设置。

  1. 模块实现与优化

    • AdaptMLP模块的设计旨在通过一个下投影层和一个上投影层来限制参数数量,并在其间插入一个ReLU激活函数以实现非线性特性。该模块通过残差连接与原始FFN网络融合。
    • 在微调阶段,研究者仅优化新引入的参数,而保持预训练模型的参数不变。这种设计不仅减少了计算负担,还避免了任务间的灾难性干扰(Catastrophic Interference)。
  2. 实验设置与数据集

    • 研究者在五个图像和视频数据集上进行了广泛的实验,包括CIFAR-100、SVHN、Food-101、Something-Something V2(SSv2)和HMDB51。
    • 实验使用了两种预训练模型:一种是基于ImageNet-21k的监督预训练模型,另一种是基于MAE(Masked Autoencoders)的自监督预训练模型。
    • 研究者对比了AdaptFormer与三种常用的微调方法:线性探测(Linear Probing)、全微调(Full Fine-tuning)和视觉提示微调(Visual Prompt Tuning, VPT)。
  3. 性能评估与分析

    • 实验结果表明,AdaptFormer在仅微调0.2%参数的情况下,能够超越全微调方法。例如,在SSv2和HMDB51数据集上,AdaptFormer分别实现了约10%和19%的相对性能提升。
    • 此外,AdaptFormer在不同任务间表现出了良好的可扩展性,尤其是在视频理解任务中,其性能显著优于VPT方法。

四、主要结果
1. 参数效率与性能提升
- AdaptFormer在多个数据集上均表现出色,尤其是在视频识别任务中,其性能显著优于传统的全微调和VPT方法。例如,在SSv2数据集上,AdaptFormer在仅微调1.26%参数的情况下,实现了59.02%的Top-1准确率,比全微调方法高出约5%。

  1. 模块设计的有效性

    • 通过对比实验,研究者发现AdaptMLP模块的并行设计优于串行设计。此外,缩放因子的选择对模型性能也有显著影响,研究者最终选择了0.1作为默认值。
  2. 任务间的可扩展性

    • AdaptFormer在多种任务中表现出了良好的可扩展性,尤其是在视频理解任务中,其性能显著优于VPT方法。例如,在HMDB51数据集上,AdaptFormer在仅微调1.46%参数的情况下,实现了73.21%的Top-1准确率,比全微调方法高出13.83%。

五、结论
本研究提出的AdaptFormer框架在视觉Transformer的高效微调方面取得了重要进展。通过引入轻量级的AdaptMLP模块,AdaptFormer能够在仅微调少量参数的情况下,显著提升模型在多种图像和视频识别任务中的性能。这一方法不仅减少了计算和存储资源的消耗,还为视觉领域的迁移学习提供了新的思路。


六、研究亮点
1. 参数效率:AdaptFormer在仅微调0.2%参数的情况下,能够超越全微调方法,显著减少了计算和存储资源的消耗。 2. 任务可扩展性:AdaptFormer在多种图像和视频任务中表现出了良好的可扩展性,尤其是在视频理解任务中,其性能显著优于传统方法。 3. 模块设计创新:AdaptMLP模块的并行设计和缩放因子的引入为视觉Transformer的高效微调提供了新的解决方案。


七、其他有价值的内容
本研究还探讨了AdaptFormer在多标签分类任务中的应用,并在NUS-WIDE数据集上进行了实验。结果表明,AdaptFormer在减少参数数量的同时,仍能保持较高的分类性能。此外,研究者还提供了AdaptFormer的开源代码,以促进相关领域的进一步研究。


通过上述报告,我们可以清晰地看到AdaptFormer在视觉Transformer高效微调方面的创新性和实用性,为计算机视觉领域的研究提供了重要的参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com