分享自:

Uniformer:用于高效时空表示学习的统一Transformer

期刊:ICLR

本文介绍的研究由来自多个顶尖机构的研究人员共同完成,主要作者包括 Kunchang Li (深圳先进技术研究院/中国科学院大学)、Yali Wang (深圳先进技术研究院)、Peng Gao (上海人工智能实验室)、Guanglu Song (商汤科技)、Yu Liu (商汤科技)、Hongsheng Li (香港中文大学) 和 Yu Qiao (上海人工智能实验室,通讯作者)。该项研究以论文《Uniformer: Unified Transformer for Efficient Spatiotemporal Representation Learning》的形式发表,并于2022年被国际学习表征会议(ICLR)收录为会议论文。

该研究属于计算机视觉领域,具体聚焦于视频理解任务。其学术背景源于当前视频表征学习面临的两大核心挑战。一方面,视频中存在巨大的时空冗余性,相邻帧之间的目标运动变化往往非常细微;另一方面,视频又包含复杂的时空依赖关系,长距离帧之间的目标互动是动态变化的。传统上,解决这两类挑战的主要技术路线有所不同:基于3D卷积神经网络(3D CNN)的方法(如I3D、SlowFast)能够通过聚合局部三维邻域内的上下文信息,有效地抑制局部冗余,但由于感受野有限,难以捕获长程依赖;而基于视觉Transformer(如Timesformer、ViViT)的方法则通过自注意力机制(Self-Attention)擅长建模全局依赖,但在每一层都对所有Token进行盲目的相似性比较,导致在编码底层局部特征时计算效率低下,存在大量冗余计算。基于此观察,本研究旨在提出一种能够有效统一3D卷积和时空自注意力两者优势的新颖网络架构,以在计算成本与模型精度之间达到更优的平衡,从而推动高效视频理解技术的发展。

研究团队设计并实现了一种名为“统一Transformer”(UniFormer)的新型网络架构。该研究详细的工作流程主要包括:模型设计、实验验证与结果分析三大环节。

模型设计是整个研究的核心。UniFormer的整体架构遵循了经典的Transformer编码器格式,但其核心模块“多头关系聚合器”(Multi-Head Relation Aggregator, MHRA)进行了革新性设计。UniFormer由四个阶段(Stage)堆叠而成,其关键创新在于MHRA根据网络深度动态调整其聚合策略。在浅层网络(如前两个阶段),研究团队采用“局部MHRA”。此时,模型学习的是一个可学习的局部参数矩阵,用于聚合每个Token在其周围一个小的三维邻域(Tube,例如5×5×5)内相邻Token的上下文信息。有趣的是,论文论证了这种局部MHRA可以被实例化为一种“逐点卷积-深度卷积-逐点卷积”(PWConv-DWConv-PWConv)的模块,类似于MobileNet块,从而继承了3D卷积高效编码局部细节特征、减少冗余计算的能力。在深层网络(后两个阶段),则切换为“全局MHRA”。此时,模型通过计算所有Token之间的内容相似性(即标准的自注意力机制)来建立长程依赖关系。与Timesformer等工作将空间注意力和时间注意力分离的设计不同,UniFormer的全局MHRA是时空联合的,能够在所有层中共同编码时空上下文,从而学习更具判别性的视频表征。此外,模型还包含了“动态位置编码”(Dynamic Position Embedding, DPE)模块,通过一个简单的3D深度卷积来动态地为Token注入绝对时空位置信息,使其能够适应不同长度的输入视频片段。模型最后通过时空平均池化和全连接层输出预测结果。研究提供了两种模型变体:UniFormer-S(阶段块数配置为 {3, 4, 8, 3})和UniFormer-B(配置为 {5, 8, 20, 7})。

实验验证部分,研究团队在多个主流视频基准数据集上进行了广泛的评估,包括Kinetics-400、Kinetics-600以及Something-Something V1 & V2。实验设置严格遵循了领域的常用做法。对于Kinetics这类场景相关数据集,训练时采用密集采样策略,测试时采用多片段(Multi-Clip)测试以覆盖更多帧;对于Something-Something这类对时序关系更敏感的数据集,则采用均匀采样训练,测试时采用多裁剪(Multi-Crop)测试以捕捉判别性动作。模型使用ImageNet-1K预训练的权重进行初始化(对于Kinetics任务,会膨胀2D卷积核为3D),并采用了与MViT相似的训练配方,使用AdamW优化器和余弦学习率调度。

结果分析是验证模型有效性的关键。本研究取得了显著的成果。在Kinetics-400和Kinetics-600上,仅使用ImageNet-1K预训练的UniFormer-B模型,在使用32帧输入、4个片段测试时,分别取得了82.9%和84.8%的Top-1准确率。特别重要的是,其计算开销远低于其他先进方法。例如,其GFLOPs(十亿次浮点运算)仅为1036G,比使用JFT-300M大数据集预训练的ViViT-L模型少了约16.7倍,比使用ImageNet-21K预训练的Swin-B模型少了约3.3倍,同时在精度上达到了可比甚至更优的水平。在更具时序建模挑战的Something-Something V1和V2数据集上,UniFormer同样取得了新的最先进性能,Top-1准确率分别达到61.0%和71.2%,显著超过了之前的CNN和Transformer方法。这些数据强有力地证明了UniFormer在精度与效率平衡方面的优越性。

除了主实验,研究团队还进行了深入的消融研究,以验证各个设计组件的贡献。结果表明:(1)局部MHRA与FFN的组合:在浅层,UniFormer块(局部MHRA + FFN)的性能优于单纯的MobileNet块(对应无FFN的局部MHRA),证明了Transformer风格的FFN能够通过混合每个时空位置的Token上下文来提升分类精度。(2)联合时空注意力 vs. 分离注意力:在深层,使用联合的时空注意力(UniFormer的设计)比将空间和时间注意力分离(如Timesformer)能学习到更具判别性的视频表征,并且在从大规模数据集(如Kinetics-400)进行迁移学习时表现更优。(3)动态位置编码(DPE)的重要性:使用DPE相比不使用,在ImageNet和Kinetics-400上分别带来了0.5%和1.7%的Top-1准确率提升。(4)层级化设计(LLGG)的有效性:实验对比了不同阶段使用局部(L)或全局(G)MHRA的多种配置(如LLLL、LLGG、GGGG)。结果显示,纯局部(LLLL)模型计算轻量但精度受限,纯全局(GGGG)模型计算昂贵且因缺乏局部细节提取能力导致严重过拟合和精度下降。而UniFormer采用的“前两个阶段局部,后两个阶段全局”(LLGG)的配置,在计算和精度之间取得了最佳平衡,验证了这种协同设计的必要性。此外,可视化分析(如Grad-CAM)也直观地展示了UniFormer能够更精确地关注视频中的关键物体(如滑板、足球),而纯局部模型注意力粗糙,纯全局模型则难以聚焦于关键目标。

基于以上工作流程和实验结果,本研究得出的核心结论是:所提出的UniFormer模型成功地将3D卷积和时空自注意力统一在一个简洁的Transformer框架内,通过浅层使用局部关系聚合来高效减少视频冗余,深层使用全局关系聚合来有效建模长程依赖,从而克服了视频理解中的两大关键挑战。这种设计使得UniFormer在流行的视频基准测试中实现了精度与效率的优越平衡。

本研究的价值体现在多个层面。在科学价值上,它提出了一种新颖且富有洞察力的网络设计范式,弥合了卷积操作(擅长局部归纳偏置)与自注意力机制(擅长全局关系建模)在视频领域应用的鸿沟,为后续的视频架构设计提供了新的思路。在应用价值上,UniFormer的高效性使其更易于部署到计算资源受限的场景(如移动端、边缘设备),推动了高效视频分析技术的实用化进程。其出色的迁移学习能力(在Something-Something数据集上的卓越表现)也证明了其学习到的时空表征具有很强的泛化性。

本研究的亮点突出。首先,在方法上具有显著的新颖性:提出的“多头关系聚合器”(MHRA)是一个核心创新点,它不再是固定不变的自注意力,而是一个能够根据网络深度自适应选择局部参数化聚合或全局相似性聚合的统一模块,这一设计巧妙且有效。其次,在性能上取得了突破性成果:在多个权威数据集上,以远低于同类模型的计算成本,达到了最先进或极具竞争力的精度水平,特别是在效率与精度的权衡曲线上占据了领先位置。最后,研究论证充分且全面:不仅提供了详尽的定量实验对比,还通过系统的消融研究、可视化分析和对模型参数(如局部邻域大小、采样策略、测试策略)的鲁棒性验证,深入剖析了模型各个组件的作用和设计选择的合理性,使研究结论坚实可靠。

这项由Kunchang Li、Yali Wang等人合作完成的研究,通过创新的UniFormer架构,为高效、强大的视频表征学习提供了一个强有力的解决方案,是计算机视觉领域,特别是视频理解方向的一项重要进展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com