基于关键点交互Transformer的结构依赖学习用于通用哺乳动物姿态估计

通用哺乳动物姿态估计的研究进展

研究背景与问题提出

在计算机视觉领域,姿态估计是一项基础且重要的任务,其目标是定位图像中目标对象的关键点位置。近年来,人类姿态估计取得了显著进展,但动物姿态估计(Animal Pose Estimation)的研究仍处于初步阶段。相比于人类姿态估计,动物姿态估计面临更大的挑战,主要体现在以下几个方面:

  1. 物种多样性:不同物种之间的外观和姿态差异巨大,例如猫科动物中的豹和家猫在外形、大小和颜色上存在显著区别。
  2. 数据稀缺性:现有的动物姿态数据集规模远小于人类姿态数据集。例如,最大的哺乳动物姿态数据集AP-10k包含约10,000张图像,而COCO数据集则包含超过200,000张标注图像。
  3. 姿态变化复杂性:动物的姿态变化范围更大,例如羚羊站立时的鼻子与眼睛距离较近,而低头饮水时鼻子与前爪的距离显著缩短。

为了解决上述问题,研究者们提出了多种方法,但大多数研究仅针对特定物种进行优化,缺乏通用性。因此,如何设计一种能够适应多物种姿态估计的模型成为亟待解决的问题。

本文由Tianyang Xu等人撰写,作者来自江南大学人工智能与计算机科学学院和英国萨里大学计算机科学与电子工程学院。论文于2025年1月6日被接收,并发表在《International Journal of Computer Vision》期刊上。

研究内容与工作流程

a) 研究流程与方法

本研究的核心贡献是一种名为Keypoint Interactive Transformer (KIT)的新架构,用于学习实例级别的结构支持依赖关系,从而实现通用哺乳动物姿态估计。以下是研究的主要流程和方法:

1. 数据预处理与特征提取

研究基于AP-10k、Animal Kingdom和COCO等数据集展开实验。输入图像首先通过高分辨率网络(HRNet)提取关键点特征。HRNet以其高分辨率表示能力著称,能够捕捉到细粒度的空间信息。随后,特征图通过卷积层调整通道数,并展平为关键点令牌(Keypoint Tokens)。

2. 关键点交互Transformer(KIT)

KIT模块是本研究的核心创新之一,其主要功能包括: - 自注意力机制:通过单头自注意力(Single-Head Self-Attention)捕获关键点之间的全局关系,同时抑制无关线索。 - 身体部位提示(Body Part Prompts):通过对关键点令牌进行聚类生成身体部位提示,结合上下文信息增强模型对语义的理解。 - 层次化交互:KIT模块以堆叠的方式构建,每一层都通过自注意力机制实现关键点之间的交互。

3. 损失函数设计

为了优化中间特征表示,研究提出了一种广义热图回归损失(Generalized Heatmap Regression Loss, GHL)。GHL通过对热图进行拉普拉斯滤波和平滑处理,动态调整中间特征的锐度,从而更好地适应不同关键点的分布特性。

4. 自适应权重策略

研究还引入了一种自适应权重策略(Adaptive Weight Strategy),用于平衡不同关键点的重要性。该策略根据每个关键点的预测误差动态调整权重,从而引导模型更加关注难以检测的关键点。

b) 主要结果

1. AP-10k数据集上的表现

在AP-10k验证集上,KITPose模型的表现优于现有最先进的方法。具体而言: - KITPose-E2C4在输入分辨率为256×256时达到76.6 AP,比HRNet-W32高出2.8 AP。 - 在更高分辨率(384×384)下,KITPose-E2C4进一步提升至77.9 AP,显示出模型在低分辨率下的鲁棒性。

2. Animal Kingdom数据集上的表现

在更具挑战性的Animal Kingdom数据集上,KITPose同样表现出色: - 配备HRNet-W32的KITPose-E2C6达到58.8 PCK@0.05,优于基线模型HRNet-W32(58.5 PCK@0.05)。 - 配备HRNet-W48的KITPose-E2C6进一步提升至59.1 PCK@0.05,证明了模型在跨物种姿态估计中的有效性。

3. COCO数据集上的泛化能力

KITPose不仅适用于动物姿态估计,还可以直接迁移到人类姿态估计任务中。在COCO验证集上,KITPose-E2C4在输入分辨率为384×288时达到77.3 AP,超越了现有最先进的方法。

c) 结论与意义

本研究提出的KITPose模型在多个数据集上均表现出色,展示了其在通用哺乳动物姿态估计中的优越性和泛化能力。研究的意义主要体现在以下方面: 1. 科学价值:KITPose通过引入结构支持依赖关系,揭示了关键点之间内在的相关性,为未来姿态估计研究提供了新的思路。 2. 应用价值:该模型可广泛应用于野生动物保护、动物行为分析等领域,为生态学研究提供技术支持。

d) 研究亮点

  1. 新颖的KIT模块:通过自注意力机制和身体部位提示,KIT模块能够有效捕获关键点之间的结构支持依赖关系。
  2. 广义热图回归损失:动态调整中间特征的锐度,增强了模型对关键点分布的适应性。
  3. 自适应权重策略:解决了不同关键点之间的不平衡问题,提升了模型的鲁棒性。

e) 其他有价值的信息

研究还探讨了不同超参数对模型性能的影响,例如身体部位提示的数量和拉普拉斯核的大小。实验表明,适当的身体部位提示数量和核大小能够显著提升模型性能。


总结

本文由Tianyang Xu等人撰写,发表于《International Journal of Computer Vision》,提出了一种名为KITPose的新架构,用于通用哺乳动物姿态估计。通过引入关键点交互Transformer、广义热图回归损失和自适应权重策略,KITPose在多个数据集上均取得了优异表现。研究不仅推动了动物姿态估计的发展,还为计算机视觉领域的其他任务提供了借鉴意义。