适应预训练图像模型用于高效视频动作识别的方法

分享自：
适应预训练图像模型用于高效视频动作识别的方法

期刊:ICLR 2023
类型a：这篇文档报告了一项原创研究，以下是对该研究的学术报告。
主要作者及机构、发表期刊和时间
本研究的主要作者包括陶建楠·杨（Taojiannan Yang）、易·朱（Yi Zhu）、余盛生·谢（Yusheng Xie）、阿斯顿·张（Aston Zhang）、陈·陈（Chen Chen）以及李牧（Mu Li）。其中，陶建楠·杨和陈·陈来自中佛罗里达大学计算机视觉研究中心（Center for Research in Computer Vision, University of Central Florida），其余作者均隶属于亚马逊网络服务（Amazon Web Services）。该研究于2023年在国际学习表征会议（ICLR 2023）上发表。
学术背景
本研究属于计算机视觉领域，特别是视频动作识别（Video Action Recognition）方向。近年来，基于视觉Transformer（Vision Transformer, ViT）的视频模型大多遵循“图像预训练后微调”（Image Pre-training then Fine-tuning）的范式，并在多个视频基准测试中取得了显著成功。然而，完全微调这些视频模型不仅计算成本高昂，而且可能破坏预训练模型中已有的良好泛化能力。因此，如何高效地利用预训练图像模型进行视频理解成为一个重要的研究课题。
本研究旨在提出一种新颖的方法——适应图像模型（Adapting Image Models, AIM），通过冻结预训练图像模型并添加少量轻量级适配器（Adapter），逐步赋予图像模型时空推理能力（Spatiotemporal Reasoning Capability）。具体目标包括：1）减少可调参数的数量以降低计算成本；2）保持或超越现有全微调方法的性能；3）提高数据效率，即在有限标注数据下仍能取得良好的性能。
详细工作流程
本研究的工作流程包括以下几个步骤：
空间适应（Spatial Adaptation）
 研究首先在Transformer块的自注意力层后添加一个适配器，用于调整预训练图像模型的空间特征以适应目标视频数据。这一过程仅更新新添加的适配器，而冻结其他所有层。实验表明，经过空间适应后，冻结的图像模型在视频数据上的空间建模能力与完全微调的模型相当。
时间适应（Temporal Adaptation）
 在空间适应的基础上，研究进一步引入时间适应。具体方法是复用预训练的自注意力层，但将其应用于视频输入的时间维度，从而建模帧间关系。同样，在时间适应模块后添加一个适配器以优化其特征。实验结果表明，时间适应显著提升了模型的性能，甚至超过了全微调的视频模型。
联合适应（Joint Adaptation）
 最后，研究在MLP层旁并行添加一个适配器，以联合调整时空特征。这一步骤的目标是进一步提升模型的时空推理能力。最终的Transformer块结构如图2(e)所示。
实验设计与实现细节
数据集：研究在四个广泛使用的视频动作识别基准上进行了评估，包括Kinetics-400（K400）、Kinetics-700（K700）、Something-Something-V2（SSV2）和Diving-48。
 
模型架构：基于ViT-B/16和ViT-L/14的预训练权重（由CLIP提供）。
 
实验设置：采用AdamW优化器，学习率使用余弦退火策略，批量大小为64。对于推理，采样多个时间片段和空间裁剪以进行集成预测。
 
主要结果
组件有效性验证
 表1展示了各组件的有效性。单独使用空间适应时，冻结图像模型的性能接近完全微调的模型（36.7% vs 36.2%），但可调参数显著减少（3.7M vs 86M）。加入时间适应后，性能大幅提升至61.2%，甚至超过全微调的视频模型（59.5%）。最终，联合适应将性能进一步提升至62.0%，同时仅需14.3M可调参数。
与现有方法对比
 表2至表5展示了AIM与其他最先进方法的对比结果。在K400上，AIM ViT-B/16仅需11M可调参数即可达到83.9%的Top-1准确率，远低于全微调模型的参数需求（121M）。在SSV2上，AIM ViT-L/14实现了70.6%的Top-1准确率，优于EVL（66.7%），且可调参数更少（50M vs 175M）。此外，AIM在低数据场景下表现出色，例如在仅使用1%训练数据时，AIM比Timesformer高出8.9%的准确率。
数据效率与训练成本
 图3显示了不同训练数据量下的性能对比，AIM在所有场景中均优于全微调模型，尤其在低数据量情况下优势更为明显。表6进一步表明，AIM显著降低了内存占用和训练时间。例如，与Videoswin相比，AIM减少了50%的内存成本和42%的训练时间。
结论及意义
本研究提出了AIM方法，通过冻结预训练图像模型并添加轻量级适配器，实现了高效的视频动作识别。该方法在四个基准测试中表现出色，性能与全微调模型相当甚至更优，同时大幅减少了可调参数和计算成本。此外，AIM在低数据场景下展现出优异的数据效率，为未来利用更强大的图像基础模型提供了潜力。
从科学价值来看，AIM为参数高效迁移学习（Parameter-efficient Transfer Learning）在视频领域的应用提供了新思路。从应用价值来看，该方法降低了视频模型的训练门槛，使得更多研究人员和实践者能够利用大规模预训练模型解决实际问题。
研究亮点
创新性方法：首次提出通过复用图像预训练自注意力层进行时间建模，避免了新增复杂模块的需求。
 
高效性：显著减少了可调参数数量（仅为全微调模型的10%-20%），同时保持或超越现有方法的性能。
 
通用性：适用于多种预训练图像模型，包括ViT和Swin Transformer。
 
数据效率：在低数据量场景下表现出色，解决了标注数据不足的问题。
 
其他有价值内容
研究还探讨了适配器位置和瓶颈比例对性能的影响。结果显示，将适配器添加到深层模块效果更佳，而瓶颈比例在0.25时性能趋于稳定。这些发现为未来研究提供了参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问