本文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:
本研究的作者包括Fan Gong、Jialiang Chen、Jiajun Zhu、Qijian Bao、Fei Gao、Renshu Gu和Gang Xu。他们分别来自杭州电子科技大学、南京航空航天大学和西安电子科技大学杭州研究院。该研究发表于2024年10月28日至11月1日举行的第32届ACM国际多媒体会议(MM ‘24)上。
微动作(micro-actions)是人体自发的微小动作,能够反映个体的真实情感和潜在意图。微动作识别在人类行为分析中具有重要意义,但由于微动作持续时间短且难以捕捉,识别微动作具有较大挑战性。现有的动作识别方法主要基于图卷积网络(Graph Convolutional Network, GCN)和卷积神经网络(Convolutional Neural Network, CNN),但这些方法在处理微动作时效果有限。因此,本研究提出了一种基于层次融合与推理(Hierarchical Fusion and Inference, HiFi)的微动作识别框架,旨在通过多模态信息的融合和精细的特征提取,提升微动作识别的准确性。
本研究的主要流程包括以下几个步骤:
关键点提取与多模态信息融合
首先,研究使用HRNet、RTMPose和MediaPipe分别提取人体、面部和手部的2D关键点,并通过3D人体姿态估计获取深度信息。这些关键点和深度信息被转换为热图形式,并与RGB图像序列进行层次融合。融合后的数据输入到3D CNN中,生成四个模型。此外,研究还使用Swin Transformer和UniformerV2生成另外两个模型。最终,通过后融合框架将这六个模型整合,得到微动作分类结果。
3D CNN层次特征融合
为了捕捉微动作的细微特征,研究使用3D CNN对局部和全局信息进行层次融合。全局信息通过RGB图像序列输入到3D CNN分支中,而局部信息则通过2D关键点和深度信息生成3D热图。热图的生成基于高斯分布,并结合关键点的置信度进行归一化处理。此外,研究还通过人体中心裁剪和均匀采样等方法优化数据表示,减少冗余信息。
基于Transformer的微动作识别
为了捕捉长序列信息和时空特征,研究采用了Video Swin Transformer(VST)和UniformerV2。VST通过自注意力机制捕捉视频中的动态特征和空间上下文关系,而UniformerV2则结合卷积和自注意力机制,增强模型对时间信息的处理能力。研究通过数据增强技术(如随机翻转和裁剪)生成输入视频片段,并利用预训练权重对分类头进行微调。
后融合框架与推理策略
研究提出了一种混合集成策略,通过搜索算法和深度集成学习将不同模型的预测结果进行融合。具体来说,研究为不同粒度的模型分配不同的权重,并通过简单的神经网络模型优化权重分布。此外,研究还提出了一种从细到粗(Fine-to-Coarse, F2C)的推理策略,通过将细分类结果的Top-5类别得分相加,得到粗分类得分,从而提升粗分类的准确性。
在MAC 2024挑战赛的Track 1中,本研究的方法取得了第四名的成绩。实验结果表明,提出的HiFi框架在粗分类和细分类任务中均表现出色。特别是在粗分类任务中,F2C推理策略显著提升了模型的准确性。此外,研究通过消融实验验证了不同模态信息对模型性能的贡献,发现面部信息对模型关注面部相关类别的能力有显著提升。
本研究提出了一种基于层次融合与推理的微动作识别框架,通过多模态信息的融合和精细的特征提取,显著提升了微动作识别的准确性。该框架不仅在学术上具有重要价值,还为实际应用(如心理状态分析和情感识别)提供了有力的技术支持。未来的研究可以考虑使用更先进的时序建模方法(如XLSTM或Mamba)进一步优化模型性能,并通过知识蒸馏等技术提升模型的泛化能力。
研究还探讨了不同模态信息对模型性能的影响,发现面部信息的引入对模型关注面部相关类别的能力有显著提升。此外,研究通过消融实验验证了后融合框架对模型性能的贡献,为未来研究提供了重要参考。