分享自:

VideoMAE V2:通过双重掩码扩展视频掩码自编码器

期刊:CVPR

VideoMAE V2:基于双掩码策略扩展视频掩码自编码器的研究进展

一、研究团队与发表信息
本研究的核心作者团队包括Limin Wang、Bingkun Huang、Zhiyu Zhao、Zhan Tong等,成员来自南京大学国家软件新技术重点实验室、上海人工智能实验室(Shanghai AI Lab)以及中国科学院深圳先进技术研究院(SIAT)。该研究以《VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking》为题,发表于计算机视觉领域顶级会议CVPR(计算机视觉与模式识别会议),是开放获取版本,与最终收录版本内容一致。


二、学术背景与研究目标
科学领域与背景
视频理解是计算机视觉的核心研究方向之一,而构建通用视频基础模型(video foundation model)是当前热点。受自然语言处理(NLP)和图像领域中掩码自编码(masked autoencoding)成功的启发(如BERT、MAE),研究者尝试将类似方法迁移至视频领域。然而,视频数据具有时空冗余性高、计算成本大、公开数据集规模有限等挑战,导致视频基础模型的扩展(scaling)困难。

研究动机与目标
VideoMAE V2旨在解决以下问题:
1. 计算效率瓶颈:传统视频掩码自编码器(如VideoMAE)虽通过高比例掩码(如90%)降低编码器计算量,但解码器仍需处理全部视频块(token),限制了亿级参数模型的训练效率。
2. 数据规模不足:现有公开视频数据集(如Kinetics-400仅24万视频)远小于图像数据集(如ImageNet-22K含1420万图像),难以支撑大模型训练。
3. 迁移性能优化:直接微调(fine-tuning)亿级模型易在小规模下游任务中过拟合。

研究目标是通过双掩码策略(dual masking)、混合数据预训练渐进式训练范式,实现视频基础模型在模型规模(亿级参数)和数据规模(百万级样本)上的高效扩展。


三、研究方法与流程
1. 核心创新:双掩码策略(Dual Masking)
- 编码器掩码:沿用VideoMAE的随机时空立方体掩码(random tube masking),掩码比例90%,仅保留10%的token输入编码器。
- 解码器掩码:新增运行单元掩码(running cell masking),从编码器丢弃的90% token中选择50%输入解码器,确保时空多样性覆盖。
- 损失计算:仅对编码器不可见的token计算重建损失(MSE损失),避免信息泄漏。
- 效率提升:相比原始VideoMAE,双掩码减少解码器50%计算量,内存消耗降低近半,预训练速度提升1.48倍(Vit-G模型)。

2. 数据扩展与混合训练
- 无标签混合数据集(UnlabeledHybrid):整合Kinetics、Something-Something、AVA、WebVid等公开数据集及自爬取视频,总规模135万片段,覆盖电影、YouTube、Instagram等多源数据。
- 有标签混合数据集(LabeledHybrid):合并Kinetics-400/600/700的标注数据,去除重复后包含71万片段、710个动作类别,用于渐进式训练的中间微调(intermediate fine-tuning)。

3. 渐进式训练流程
- 阶段一:在UnlabeledHybrid上执行掩码自编码预训练,学习通用时空表征。
- 阶段二:在LabeledHybrid上进行监督式后预训练(post-pre-training),注入语义信息。
- 阶段三:针对下游任务(如动作识别)微调,避免直接微调导致的过拟合。

4. 模型架构与扩展
- 主干网络:基于Vision Transformer(ViT),依次扩展ViT-B(基础版)、ViT-L(大)、ViT-H(超大)至ViT-G(亿级参数,10.11亿)。
- 解码器设计:轻量化(4层Transformer块),通道数适配不同主干(如ViT-B为384,ViT-G为512)。


四、主要实验结果
1. 双掩码有效性验证
- 消融实验(表1):在Something-Something V2数据集上,运行单元掩码(50%比例)性能与原VideoMAE相当(70.15% vs. 70.28% Top-1准确率),但FLOPs降低27%。
- 效率对比(表2):ViT-G预训练时间从356小时缩短至241小时,内存占用从1753MB降至1050MB。

2. 数据与模型扩展效果
- 数据规模(表3、4):在Kinetics-400上,ViT-H使用UnlabeledHybrid预训练比原VideoMAE(Kinetics-400预训练)提升0.3%(86.9% vs. 86.6%);在Something-Something V2上提升2.0%(76.8% vs. 74.8%)。
- 模型规模(表5):ViT-G在Kinetics-400上达87.2%准确率,较ViT-H提升0.3%;结合渐进式训练后,性能进一步提升至88.6%。

3. 下游任务迁移性能
- 动作识别(表6a-d):ViT-G在Kinetics-400(90.0%)、Kinetics-600(89.9%)、Something-Something V1(68.7%)、V2(77.0%)均刷新SOTA。
- 时空动作检测:在AVA数据集上mAP达42.6%,超越之前最佳方法(如MaskFeat的38.8%)。
- 时序动作检测:在THUMOS14上mAP达69.6%,较ActionFormer提升2.8%。


五、研究意义与价值
科学价值
1. 方法论创新:双掩码策略首次将解码器计算量纳入优化,为视频大模型训练提供高效框架。
2. 扩展性验证:首次成功训练亿级参数视频Transformer(ViT-G),证实视频掩码自编码的可扩展性。

应用价值
1. 通用视频表征:预训练模型可迁移至动作识别、检测、定位等多任务,降低下游任务数据需求。
2. 开源贡献:公开混合数据集构建方法,缓解视频领域数据稀缺问题。

六、研究亮点
1. 双掩码策略:通过编码器-解码器协同掩码,实现计算效率与性能的平衡。
2. 亿级模型训练:在有限硬件条件下(64张A100 GPU),完成ViT-G的高效预训练。
3. 多任务泛化性:在8个主流视频基准(如Kinetics、THUMOS14)中均达到SOTA,涵盖分类、检测、定位三类任务。

七、局限与展望
当前数据规模(百万级)仍远小于图像(如JFT-3B含30亿图像),未来需探索更高效的视频预训练框架以支持更大规模数据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com