这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该文档的详细学术报告:
该研究的主要作者包括Chen Wang、Xun Mei和Feng Zhang。其中,Chen Wang和Xun Mei来自中国移动上海信息通信技术有限公司(China Mobile Shanghai ICT Co., Ltd),而Feng Zhang则来自南京邮电大学(Nanjing University of Posts and Telecommunications)。该研究发表于2024年10月28日至11月1日举行的第32届ACM国际多媒体会议(Proceedings of the 32nd ACM International Conference on Multimedia, MM’24)上。
该研究的主要科学领域是计算机视觉中的动作识别(action recognition),特别是微动作识别(micro-action recognition)。微动作是指人体局部的低幅度运动,这种运动通常与心理状态和情绪状态密切相关。然而,由于微动作的低幅度和短时性,传统的动作识别方法在处理微动作时面临巨大挑战。现有方法往往忽视了微动作的局部性,且在处理长尾分布(long-tail distribution)问题时表现不佳。因此,该研究旨在解决微动作识别中的两个主要问题:一是如何有效捕捉人体局部区域的微小运动,二是如何缓解数据不平衡问题。
该研究主要包括以下几个步骤:
1. 数据预处理:
研究者设计了一种实例感知的数据预处理方法(instance-aware data preprocessing),通过预训练的人体检测器(human detector)来定位人体实例,并利用仿射变换(affine transformation)将人体区域映射到输入分辨率中。这一方法有效减少了背景干扰,并放大了微动作的运动区域。
2. 损失函数设计:
针对数据不平衡问题,研究者提出了一种新的粗粒度焦点损失(coarse-grained focal loss),通过引入自适应权重来关注粗粒度级别的误分类。该损失函数利用粗粒度标签作为额外的监督信息,缓解了数据不平衡问题。
3. 模型训练与评估:
研究者在微动作识别数据集(micro-action-52, MA-52)上进行了实验,该数据集包含11250个训练视频、5586个验证视频和5586个测试视频,涵盖了52个细粒度动作类别和7个粗粒度身体标签。研究者采用了VideoMAEv2作为基础模型,并通过模型集成(model ensembling)进一步提升性能。
4. 实验结果分析:
研究者通过标准评估指标(如准确率和F1分数)对模型性能进行了评估,并与现有方法进行了对比。实验结果表明,所提出的方法在MAC 2024 Track 1和Track 2中分别获得了第三名和第二名的成绩,证明了其有效性和泛化能力。
该研究的科学价值在于提出了一种有效的方法来解决微动作识别中的两个关键问题:局部运动捕捉和数据不平衡。所提出的实例感知数据预处理方法和粗粒度焦点损失不仅在理论上具有创新性,而且在实际应用中表现出色。该研究为微动作识别领域提供了新的思路,并为相关应用(如心理学研究和情绪分析)提供了技术支持。