分享自:

基于实例感知的细粒度微动作识别

期刊:Proceedings of the 32nd ACM International Conference on MultimediaDOI:10.1145/3664647.3688976

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该文档的详细学术报告:

主要作者及研究机构

该研究的主要作者包括Chen Wang、Xun Mei和Feng Zhang。其中,Chen Wang和Xun Mei来自中国移动上海信息通信技术有限公司(China Mobile Shanghai ICT Co., Ltd),而Feng Zhang则来自南京邮电大学(Nanjing University of Posts and Telecommunications)。该研究发表于2024年10月28日至11月1日举行的第32届ACM国际多媒体会议(Proceedings of the 32nd ACM International Conference on Multimedia, MM’24)上。

学术背景

该研究的主要科学领域是计算机视觉中的动作识别(action recognition),特别是微动作识别(micro-action recognition)。微动作是指人体局部的低幅度运动,这种运动通常与心理状态和情绪状态密切相关。然而,由于微动作的低幅度和短时性,传统的动作识别方法在处理微动作时面临巨大挑战。现有方法往往忽视了微动作的局部性,且在处理长尾分布(long-tail distribution)问题时表现不佳。因此,该研究旨在解决微动作识别中的两个主要问题:一是如何有效捕捉人体局部区域的微小运动,二是如何缓解数据不平衡问题。

研究流程

该研究主要包括以下几个步骤:
1. 数据预处理
研究者设计了一种实例感知的数据预处理方法(instance-aware data preprocessing),通过预训练的人体检测器(human detector)来定位人体实例,并利用仿射变换(affine transformation)将人体区域映射到输入分辨率中。这一方法有效减少了背景干扰,并放大了微动作的运动区域。
2. 损失函数设计
针对数据不平衡问题,研究者提出了一种新的粗粒度焦点损失(coarse-grained focal loss),通过引入自适应权重来关注粗粒度级别的误分类。该损失函数利用粗粒度标签作为额外的监督信息,缓解了数据不平衡问题。
3. 模型训练与评估
研究者在微动作识别数据集(micro-action-52, MA-52)上进行了实验,该数据集包含11250个训练视频、5586个验证视频和5586个测试视频,涵盖了52个细粒度动作类别和7个粗粒度身体标签。研究者采用了VideoMAEv2作为基础模型,并通过模型集成(model ensembling)进一步提升性能。
4. 实验结果分析
研究者通过标准评估指标(如准确率和F1分数)对模型性能进行了评估,并与现有方法进行了对比。实验结果表明,所提出的方法在MAC 2024 Track 1和Track 2中分别获得了第三名和第二名的成绩,证明了其有效性和泛化能力。

主要结果

  1. 数据预处理效果
    实例感知的数据预处理方法显著减少了背景干扰,使得微动作区域更加突出。实验结果显示,该方法在准确率和F1分数上均有显著提升。
  2. 粗粒度焦点损失的效果
    粗粒度焦点损失有效缓解了数据不平衡问题,特别是在粗粒度级别的误分类上表现优异。实验数据显示,该方法在粗粒度标签上的误分类率显著降低。
  3. 整体模型性能
    在MA-52数据集上,所提出的方法在细粒度和粗粒度标签上的F1分数均优于现有方法。特别是在MAC 2024竞赛中,该方法在微动作识别和多标签微动作检测任务中均取得了优异的成绩。

结论

该研究的科学价值在于提出了一种有效的方法来解决微动作识别中的两个关键问题:局部运动捕捉和数据不平衡。所提出的实例感知数据预处理方法和粗粒度焦点损失不仅在理论上具有创新性,而且在实际应用中表现出色。该研究为微动作识别领域提供了新的思路,并为相关应用(如心理学研究和情绪分析)提供了技术支持。

研究亮点

  1. 实例感知数据预处理:通过人体检测器和仿射变换,有效减少了背景干扰,放大了微动作区域。
  2. 粗粒度焦点损失:利用粗粒度标签作为额外监督信息,缓解了数据不平衡问题。
  3. 模型性能优异:在MAC 2024竞赛中取得了优异成绩,证明了方法的有效性和泛化能力。

其他有价值的内容

该研究还开源了代码(https://github.com/ilovepose/instance-aware-fine-grained-micro-action-recognition),为后续研究提供了便利。此外,研究者在实验中对数据分布和误分类情况进行了详细分析,为未来的改进提供了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com