基于层次融合与推理的微动作识别

分享自：
基于层次融合与推理的微动作识别

期刊:ACM International Conference on Multimedia
本文档属于类型a，即报告了一项原创研究。以下是针对该研究的学术报告：
主要作者及研究机构本研究的作者包括Fan Gong、Jialiang Chen、Jiajun Zhu、Qijian Bao、Fei Gao、Renshu Gu和Gang Xu。他们分别来自杭州电子科技大学、南京航空航天大学和西安电子科技大学杭州研究院。该研究发表于2024年10月28日至11月1日举行的第32届ACM国际多媒体会议（MM ‘24）上。
学术背景微动作（micro-actions）是人体自发的微小动作，能够反映个体的真实情感和潜在意图。微动作识别在人类行为分析中具有重要意义，但由于微动作持续时间短且难以捕捉，识别微动作具有较大挑战性。现有的动作识别方法主要基于图卷积网络（Graph Convolutional Network, GCN）和卷积神经网络（Convolutional Neural Network, CNN），但这些方法在处理微动作时效果有限。因此，本研究提出了一种基于层次融合与推理（Hierarchical Fusion and Inference, HiFi）的微动作识别框架，旨在通过多模态信息的融合和精细的特征提取，提升微动作识别的准确性。
研究流程本研究的主要流程包括以下几个步骤：
关键点提取与多模态信息融合
 首先，研究使用HRNet、RTMPose和MediaPipe分别提取人体、面部和手部的2D关键点，并通过3D人体姿态估计获取深度信息。这些关键点和深度信息被转换为热图形式，并与RGB图像序列进行层次融合。融合后的数据输入到3D CNN中，生成四个模型。此外，研究还使用Swin Transformer和UniformerV2生成另外两个模型。最终，通过后融合框架将这六个模型整合，得到微动作分类结果。
3D CNN层次特征融合
 为了捕捉微动作的细微特征，研究使用3D CNN对局部和全局信息进行层次融合。全局信息通过RGB图像序列输入到3D CNN分支中，而局部信息则通过2D关键点和深度信息生成3D热图。热图的生成基于高斯分布，并结合关键点的置信度进行归一化处理。此外，研究还通过人体中心裁剪和均匀采样等方法优化数据表示，减少冗余信息。
基于Transformer的微动作识别
 为了捕捉长序列信息和时空特征，研究采用了Video Swin Transformer（VST）和UniformerV2。VST通过自注意力机制捕捉视频中的动态特征和空间上下文关系，而UniformerV2则结合卷积和自注意力机制，增强模型对时间信息的处理能力。研究通过数据增强技术（如随机翻转和裁剪）生成输入视频片段，并利用预训练权重对分类头进行微调。
后融合框架与推理策略
 研究提出了一种混合集成策略，通过搜索算法和深度集成学习将不同模型的预测结果进行融合。具体来说，研究为不同粒度的模型分配不同的权重，并通过简单的神经网络模型优化权重分布。此外，研究还提出了一种从细到粗（Fine-to-Coarse, F2C）的推理策略，通过将细分类结果的Top-5类别得分相加，得到粗分类得分，从而提升粗分类的准确性。
主要结果在MAC 2024挑战赛的Track 1中，本研究的方法取得了第四名的成绩。实验结果表明，提出的HiFi框架在粗分类和细分类任务中均表现出色。特别是在粗分类任务中，F2C推理策略显著提升了模型的准确性。此外，研究通过消融实验验证了不同模态信息对模型性能的贡献，发现面部信息对模型关注面部相关类别的能力有显著提升。
结论本研究提出了一种基于层次融合与推理的微动作识别框架，通过多模态信息的融合和精细的特征提取，显著提升了微动作识别的准确性。该框架不仅在学术上具有重要价值，还为实际应用（如心理状态分析和情感识别）提供了有力的技术支持。未来的研究可以考虑使用更先进的时序建模方法（如XLSTM或Mamba）进一步优化模型性能，并通过知识蒸馏等技术提升模型的泛化能力。
研究亮点创新性框架：提出了基于层次融合与推理的HiFi框架，首次将3D CNN和Transformer结合用于微动作识别。
 
多模态融合：通过融合2D关键点、深度信息和RGB图像序列，捕捉了微动作的细微特征。
 
F2C推理策略：提出的从细到粗推理策略显著提升了粗分类任务的准确性。
 
实验验证：在MAC 2024挑战赛中取得了第四名的成绩，验证了框架的有效性。
其他有价值的内容研究还探讨了不同模态信息对模型性能的影响，发现面部信息的引入对模型关注面部相关类别的能力有显著提升。此外，研究通过消融实验验证了后融合框架对模型性能的贡献，为未来研究提供了重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问