SVTFormer：用于多视图三维人体姿态估计的空间-视图-时间Transformer

分享自：
SVTFormer：用于多视图三维人体姿态估计的空间-视图-时间Transformer

期刊:AAAI
该文档报告了一项单一的原创性研究，属于类型a。因此，将根据类型a的要求撰写学术报告。
由Wanruo Zhang、Mengyuan Liu、Hong Liu和Wenhao Li共同完成的论文“SVTformer: Spatial-View-Temporal Transformer for Multi-View 3D Human Pose Estimation”，在2025年第三十九届AAAI人工智能会议（The Thirty-Ninth AAAI Conference on Artificial Intelligence，AAAI-25）上发表。该研究团队来自北京大学深圳研究生院通用人工智能国家关键实验室和新加坡南洋理工大学。
本研究的主要科学领域是计算机视觉，具体方向是多视角三维人体姿态估计（3D Human Pose Estimation， 3D HPE）。其学术背景在于，从单目图像或视频进行3D HPE存在深度模糊和局部遮挡等固有问题，而利用多视角信息是解决这些问题的自然途径。传统或早期的一些多视角方法通常依赖相机标定、三角测量或复杂的几何约束，这限制了模型在真实场景中的泛化能力。近年来，基于Transformer的模型被引入多视角3D HPE，通过聚合人体关节的空间-时间信息来实现从2D到3D的“提升”。然而，先前的方法（无论是基于CNN/RNN/GCN还是Transformer）存在明显局限：它们要么无法分别建模每个视角关节的帧间对应关系，要么无法同时直接考虑所有视角在每个时刻的交互，导致对多视角关联的学习不充分。一些结合图结构的Transformer方法虽然增强了局部特征表达，但通常只考虑相邻视角间的特征融合，未能明确挖掘所有视角间的整体对应关系，并且其图结构引入了关节连接的结构先验，可能限制模型的感受野和泛化能力。因此，本研究旨在解决上述问题，提出一种能够更有效、更全面地对多视角、时间和空间信息进行关联与融合的新方法。其目标是开发一个不依赖于额外相机参数、复杂约束或人体先验的框架，通过顺序解耦学习空间、视角和时间关联，以局部到全局的方式提升多视角3D人体姿态估计的精度，特别是在处理具有挑战性的姿态（如自遮挡）时。
本研究的详细工作流程围绕提出的新颖模型“空间-视角-时间Transformer（Spatial-View-Temporal Transformer， SVTformer）”展开，其核心在于通过连续的“合并-解耦”操作重塑输入数据，并顺序地、交替地学习三种注意力关联。研究主要包含以下流程：数据输入与预处理、模型整体架构构建（包括Attended SVT Patch Embedding和堆叠的SVT编码器）、模型变体探索、实验评估与消融研究。
首先，研究的输入是从多视角图像序列中获得的2D姿态序列。具体而言，对于包含B个样本、V个视角、T帧图像、J个关节的输入，研究者使用一个现成的2D姿态估计器（如CPN）来获取每个视角、每帧图像中人体关节的2D坐标，其维度为 B×T×V×J×2。这些2D姿态将作为后续2D到3D提升网络的输入。
其次，本研究的核心创新是SVTformer模型架构。该模型主要包括两大模块：Attended SVT Patch Embedding 和堆叠的 SVT Encoder。
Attended SVT Patch Embedding模块 的目标是捕捉输入姿态中与空间、视角和时间相关的局部细节信息。与传统Transformer直接将图像分块嵌入不同，该模块使用一个Transformer编码器结构，顺序地 对输入的2D骨架序列应用三层注意力，将其映射到一个具有注意力感知的高维空间。具体流程如下：1) 时间增强的空间注意力嵌入：首先，通过合并批次大小与通道数，并解耦不同视角，将输入重塑为能够体现每个视角内关节空间关联、同时隐含着时间信息的特征。随后，通过一个线性层将特征投影到高维，并添加空间位置嵌入，最后送入一个Transformer编码器层。该编码器对不同视角进行并行处理，专注于学习每个视角内关节间的空间关系。2) 空间增强的视角注意力嵌入：将上一步的输出进行重塑，合并批次与时间维度，解耦不同时刻，得到每个时刻下、跨视角关联的特征。添加视角位置嵌入后，送入另一个Transformer编码器层。该层对不同时刻进行并行处理，专注于学习每个时刻下、所有视角间的关节对应关系。3) 空间增强的时间注意力嵌入：再次重塑上一步的输出，合并批次与视角维度，解耦不同视角，得到每个视角下、跨时间关联的特征。添加时间位置嵌入后，送入第三个Transformer编码器层。该层对不同视角进行并行处理，专注于学习每个视角内关节随时间的运动关联。这三个步骤顺序执行，每一步的输出都经过层归一化和残差连接，从而构建出融合了局部空间-视角-时间关联的嵌入表示。
堆叠的SVT Encoder模块 则用于在更深层网络中探索空间、视角和时间之间的长距离全局依赖关系。该模块由L层相同的结构堆叠而成。每一层都顺序地、交替地执行三种注意力操作：时间增强的空间注意力、空间增强的视角注意力和空间增强的时间注意力。其流程与Patch Embedding模块类似，同样涉及相应的“合并-解耦”重塑操作，并将重塑后的特征输入对应的Transformer编码器。关键区别在于，SVT Encoder中的注意力模块直接通过残差连接和层归一化结合编码器输入与输出，不再包含位置嵌入步骤。这种设计有助于稳定梯度传播，加快模型收敛。通过这种交替堆叠，模型得以渐进式地从局部到全局，深入挖掘关节空间关系、跨视角依赖性和时序运动关联。
在模型探索方面，研究者还提出了另外两种变体作为对比：1) 并行加权模型：同时并行处理空间、视角、时间三个分支，每个分支学习单一方面的关联，最后通过一个自适应融合模块（使用全局最大池化和全连接层生成权重）对三个分支的输出进行加权求和。2) 联合顺序与并行模型：将顺序学习结构与并行结构相结合，以探索更优的关联学习方式。
在实验与分析流程中，研究使用了三个广泛认可的3D HPE数据集进行评估：Human3.6m（室内实验室场景）、MPI-INF-3DHP（包含室内外场景）和Ski-Pose PTZ-Camera（具有挑战性的户外滑雪场景）。评估协议包括标准协议P1（平均每关节位置误差，MPJPE）、P2（普氏分析后的MPJPE，P-MPJPE），以及在3DHP上使用的PCK和AUC指标。在实现细节上，模型在单个NVIDIA RTX 4090 GPU上进行训练，使用Adam优化器，设置Transformer层数L=4，隐藏层维度d=32，训练50个周期。实验主要分为三部分：1) 与最先进方法的比较：在三个数据集上，将SVTformer与当前最优的单视角及多视角方法进行定量比较（使用CPN或真实2D姿态作为输入）。2) 消融研究：系统验证模型各组件、顺序学习的不同次序、融合视角数量等对性能的影响。3) 定性分析：可视化估计的3D姿态与真实姿态的对比，以及可视化注意力图以观察模型从局部到全局的关注点变化。
本研究取得了以下主要结果：
在与最先进方法的比较中，SVTformer展现出了卓越的性能。在Human3.6m数据集上，使用CPN检测的2D姿态作为输入时，SVTformer在P1指标上达到了26.0 mm，显著优于其他不依赖相机参数的多视角方法（如Zhang et al. 2024的27.6 mm， Zhou et al. 2023的26.8 mm）。甚至优于一些需要相机参数的方法（如He et al. 2020的26.9 mm）。当使用真实2D姿态（ground truth， GT）作为输入时，SVTformer取得了11.4 mm的P1误差，与当前最佳性能持平（Zhang et al. 2024为11.7 mm），证明了其模型架构的有效上限。在更具挑战性的MPI-INF-3DHP数据集上，SVTformer在P1（12.0 mm）、P2（9.1 mm）、PCK（99.9%）和AUC（91.6%）四个指标上均取得了最佳结果，表明其对于室内外场景均具有良好的鲁棒性。在户外滑雪数据集Ski-Pose上，SVTformer同样以59.9 mm的P1误差领先于所有对比方法。这些定量结果强有力地支持了SVTformer框架的有效性和优越性。
消融研究的结果为模型设计提供了深入洞察。首先，对比不同的SVT Transformer变体，顺序交替模型（即SVTformer）性能最佳（P1 26.0 mm），明显优于并行加权模型（P1 28.7 mm）。这验证了通过连续重塑2D特征并顺序挖掘空间、视角、时间关系的策略，比并行学习后再融合的策略能更充分地进行关联学习。其次，对顺序学习次序的研究发现，“空间 -> 视角 -> 时间”的次序效果最好。先建模每个视角内关节的空间关系，再考虑跨视角关联，最后学习每个视角内的时间运动，这一流程符合从局部特征到更复杂关联的渐进认知过程。相反，先学习跨视角或时间特征会导致性能下降。第三，对模型各组件重要性的分析显示，移除Attended SVT Patch Embedding或SVT Encoder中的任何子模块都会导致性能下降，证明两者对特征提取都是有益的。其中，空间注意力模块在两个部分中都扮演着比视角和时间注意力更重要的角色，表明挖掘每个视角内的关节空间关系对于构建鲁棒的多视角姿态表示至关重要。第四，随着融合视角数量的增加（从1个到4个），模型性能持续稳定提升，表明顺序建模方法能有效融合多视角信息，补偿单视角下的信息缺失。
定性分析结果进一步佐证了模型优势。可视化对比显示，SVTformer对于容易和困难的姿态（特别是存在自遮挡的情况）都能得到更接近真实值的估计。注意力图的可视化显示，Attended SVT Patch Embedding层的注意力更多地集中在局部关节、视角和时间特征上（呈现对角线或短程结构），而SVT Encoder层的注意力图随着网络加深变得越发放散和稀疏，表明深层网络更专注于捕捉全局的、长距离的关系。
基于上述结果，本研究得出的结论是：提出的SVTformer是一种新颖有效的、基于纯Transformer架构的多视角3D人体姿态估计方法。它通过顺序解耦和局部到全局的融合策略，分别且深入地探索了空间、视角和时间三者之间的相关性。模型在三个主流基准数据集上都达到了最先进的性能，有效缓解了深度模糊问题，提高了估计精度，且无需额外的相机参数、复杂约束或人体先验知识。
本研究的科学价值与应用价值显著。在科学层面，它提出了一种全新的多视角信息融合范式，将复杂的空间-视角-时间联合建模问题分解为顺序的、可解释的注意力学习过程，为多模态或多源时序数据的融合建模提供了新思路。在应用层面，高精度的3D人体姿态估计是动作识别、运动预测、人机交互、虚拟现实等众多领域的基础，SVTformer的强性能和高鲁棒性（尤其在户外和遮挡场景下）为其在实际场景中的部署应用提供了可能。其不依赖特定相机参数的特性也降低了使用门槛，增强了实用性。
本研究的亮点主要体现在以下几个方面：重要发现：揭示了在多视角3D HPE中，“空间->视角->时间”的顺序关联学习策略是最有效的；证实了深度网络中注意力机制会从局部关联建模自然过渡到全局关联建模。方法新颖性：提出了“Attended SVT Patch Embedding”模块，使用注意力机制进行特征嵌入而非简单线性投影；设计了顺序交替的SVT Encoder，通过连续的“合并-解耦”重塑操作，在统一框架内实现三种关联的递进式学习，这一工作流程具有独创性。目标特殊性：专注于解决先前多视角融合方法中视角间关联学习不充分、时空信息割裂的问题，旨在实现更全面、更深入的关联挖掘。
此外，论文还提供了丰富的可视化证据（注意力图、姿态对比图），增强了研究的可解释性和说服力。代码已开源，有利于促进该领域的复现和后续研究。这些内容共同构成了一份扎实、创新且具有影响力的学术研究报告。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问