分享自:

细粒度时空解析网络在动作质量评估中的应用

期刊:IEEE Transactions on Image ProcessingDOI:10.1109/TIP.2023.3331212

本文档属于类型a,即报告了一项单一原创研究的学术论文。以下是基于文档内容的详细学术报告:


主要作者及机构
本研究由Kumie Gedamu、Yanli Ji、Yang Yang、Jie Shao和Heng Tao Shen共同完成。其中,Kumie Gedamu来自四川人工智能研究院和电子科技大学计算机科学与工程学院;Yanli Ji和Jie Shao来自电子科技大学计算机科学与工程学院以及深圳研究院;Yang Yang和Heng Tao Shen均来自电子科技大学计算机科学与工程学院。该研究于2023年发表在IEEE Transactions on Image Processing期刊上。

学术背景
本研究的主要科学领域是视频分析中的动作质量评估(Action Quality Assessment, AQA)。AQA用于评估特定动作(如体育活动的执行质量),在医疗技能评估和运动员训练等实际应用中具有重要意义。然而,现有方法大多采用整体视频表示,难以捕捉细粒度的类内差异,尤其是在背景相似但动作差异较小的情况下。为了解决这一问题,本研究提出了一种细粒度时空解析网络(Fine-grained Spatio-temporal Parsing Network, FSPN),旨在通过学习细粒度的时空子动作表示,提升AQA的可靠性。

研究流程
本研究包括以下几个主要步骤:

  1. 问题定义与目标
    研究的目标是通过细粒度的时空解析,捕捉动作序列中的子动作特征及其时间依赖性,从而更准确地评估动作质量。具体而言,研究将AQA问题定义为回归问题,即通过输入视频预测动作质量评分。

  2. 网络架构设计
    提出的FSPN由两个核心模块组成:

    • 序列内动作解析模块(Intra-sequence Action Parsing Module, IAP):通过无监督方式挖掘细粒度的子动作,并生成语义子动作特征。该模块通过上采样块和MLP层生成子动作的概率分布,并使用组对比损失(Group Contrastive Loss)优化特征表示。
    • 时空多尺度变换器模块(Spatiotemporal Multiscale Transformer Module, SMT):学习运动导向的动作特征,并捕捉子动作在不同尺度下的长程依赖关系。该模块通过多阶段的多头自注意力机制,逐步扩展通道容量,捕捉从粗粒度到细粒度的动作特征。
  3. 数据处理与特征提取
    研究使用预训练的I3D(Inflated 3D ConvNet)作为特征提取器,从输入视频中提取时空动作特征。为了减少背景干扰,研究还采用预训练的SSD(Single Shot MultiBox Detector)模型提取演员中心区域的动作特征。

  4. 多尺度特征融合
    通过多尺度时间融合模块(Multiscale Temporal Fusion, MTF),将不同尺度的时空特征进行整合,生成统一的特征表示,用于最终的动作质量评分预测。

  5. 损失函数与优化
    研究设计了三种损失函数:组对比损失(Lgc)、二元交叉熵损失(Lbce)和回归损失(Lreg)。通过联合优化这些损失函数,模型能够学习到更具判别力的动作特征。

  6. 实验与评估
    研究在三个AQA数据集(FineDiving、AQA-7和MTL-AQA)上进行了广泛的实验,验证了FSPN的有效性。评估指标包括Spearman相关系数(Spr. Corr.)相对L2距离(RL2)。实验结果表明,FSPN在捕捉细粒度动作特征和提升AQA性能方面显著优于现有方法。

主要结果
1. 序列内动作解析模块的有效性
在FineDiving数据集上,添加IAP模块使Spr. Corr.提升了4.08%,达到0.891,相对RL2距离降至0.468。这表明IAP模块能够有效捕捉子动作的内部时间结构。

  1. 时空多尺度变换器模块的贡献
    添加SMT模块使Spr. Corr.提升了7%,达到0.928,相对RL2距离降至0.332。该模块通过多阶段的多头自注意力机制,显著提升了动作特征的表示能力。

  2. 多尺度特征融合的优化效果
    添加MTF模块后,Spr. Corr.进一步提升至0.936,相对RL2距离降至0.289。这表明多尺度特征融合能够有效整合不同尺度的时空信息。

  3. 整体性能提升
    在FineDiving数据集上,FSPN的Spr. Corr.达到0.942,相对RL2距离为0.278,显著优于现有方法。在AQA-7和MTL-AQA数据集上,FSPN也表现出色,分别实现了0.8724和0.9601的Spr. Corr.。

结论
本研究提出的FSPN通过学习细粒度的时空子动作特征,显著提升了动作质量评估的准确性和可靠性。其主要贡献包括:
1. 设计了序列内动作解析模块,能够无监督地挖掘子动作特征;
2. 提出了时空多尺度变换器模块,捕捉了子动作在不同尺度下的长程依赖关系;
3. 通过多尺度特征融合,生成了统一的时空特征表示。
这些创新使得FSPN在多个AQA数据集上均取得了最先进的性能。

研究亮点
1. 细粒度特征捕捉:FSPN能够有效捕捉动作序列中的细粒度差异,解决了现有方法在类内差异较小情况下的性能瓶颈。
2. 无监督学习:通过组对比损失,FSPN能够在无监督的情况下学习到更具判别力的子动作特征。
3. 多尺度时空建模:时空多尺度变换器模块通过多阶段的多头自注意力机制,显著提升了动作特征的表示能力。
4. 广泛实验验证:研究在三个AQA数据集上进行了全面实验,验证了FSPN的优越性和通用性。

其他价值
本研究的成果不仅为AQA领域提供了新的技术路线,还在医疗康复和运动员训练等实际应用中具有潜在的应用价值。未来研究可以进一步探索如何通过最大化伪标签之间的互信息,提升时空解析的精度。


以上是本研究的详细学术报告,涵盖了研究的背景、方法、结果和意义,为相关领域的研究者提供了全面的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com