基于骨骼和语义嵌入损失的微手势分类

分享自：
基于骨骼和语义嵌入损失的微手势分类

期刊:CEUR Workshop Proceedings
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
研究作者及机构
 本研究的作者包括Kun Li、Dan Guo、Guoliang Chen、Xinge Peng和Meng Wang。他们分别来自合肥工业大学（Hefei University of Technology, HFUT）计算机与信息工程学院、人工智能学院、教育部大数据知识工程重点实验室以及合肥综合性国家科学中心人工智能研究所。该研究发表于2023年国际人工智能联合会议（IJCAI）的MIGA（Micro-Gesture Analysis for Hidden Emotion Understanding）研讨会上。
学术背景
 本研究的主要科学领域是计算机视觉中的微手势（micro-gesture）分类任务。微手势是指日常生活中自发产生的细微身体动作，通常与隐藏的情感状态相关。与普通的手势识别相比，微手势具有更高的挑战性，因为其动作更加精细且微妙，且数据分布不均衡。研究团队旨在通过基于骨架数据的视频分析，识别微手势的动作类别，从而为情感理解提供支持。
 研究背景基于两个公开数据集：IMIGUE（Identity-free Micro-Gesture Understanding and Emotion Analysis）和SMG（Spontaneous Micro-Gesture）。IMIGUE数据集收集自网球运动员赛后新闻发布会视频，包含32种微手势类别；SMG数据集则包含17种微手势，采集自40名受试者在讲述真实和虚构故事时的视频。
 本研究的目标是开发一种高效的微手势分类方法，通过结合骨架嵌入（skeletal embedding）和语义嵌入（semantic embedding）损失，提升分类性能。
研究流程
 研究流程分为三个主要步骤：数据准备、动作建模和动作分类。
 1. 数据准备：
 - 对于IMIGUE数据集，仅使用OpenPose工具箱提取的上半身22个关键点；对于SMG数据集，使用全身25个关键点。
 - 将2D骨架数据转换为3D热图体积（3D heatmap volumes），以减少冗余。具体方法包括主体中心裁剪（subjects-centered cropping）和均匀采样（uniform sampling）。
 2. 动作建模：
 - 使用3D卷积神经网络（3D-CNNs）捕捉骨架序列的时空动态特征。研究团队采用SlowOnly模型作为骨干网络，生成512维的骨架嵌入向量。
 - 引入动作标签的GloVe词嵌入（GloVe embedding）作为语义监督。通过全连接层将骨架嵌入向量转换为300维向量，并使用均方误差损失（MSE loss）使其接近语义嵌入向量。
 3. 动作分类：
 - 结合分类损失（cross-entropy loss）和语义嵌入损失，优化模型性能。损失函数为：L = L_class + α * L_emb，其中α为超参数。
 - 在IMIGUE和SMG数据集上分别评估模型性能，使用Top-1和Top-5准确率作为评价指标。
主要结果
 1. 在IMIGUE测试集上，研究团队提出的方法取得了64.12%的Top-1准确率，比第二名团队高出1.10%。
 2. 在SMG数据集上，该方法分别取得了68.03%和94.76%的Top-1和Top-5准确率。
 3. 通过消融实验发现，当α = 20时，模型性能最佳。
 4. 与基线模型PoseC3D相比，该方法在IMIGUE和SMG数据集上的Top-1准确率分别提升了2.74%和2.63%。
 5. 联合使用关节（joint）和肢体（limb）模态数据进一步提升了模型性能，在IMIGUE数据集上Top-1和Top-5准确率分别提高了1.96%和2.96%。
结论
 本研究提出了一种基于3D-CNNs的微手势分类方法，通过结合骨架嵌入和语义嵌入损失，显著提升了分类性能。该方法在IJCAI 2023的MIGA挑战赛中取得了第一名，证明了其在捕捉微手势细微变化方面的有效性。
 研究的科学价值在于为微手势识别提供了一种新的解决方案，尤其是在数据分布不均衡的情况下。其应用价值体现在情感分析、人机交互等领域，为理解隐藏情感状态提供了技术支持。
 未来的研究方向包括开发更鲁棒的人体姿态估计网络、针对不均衡数据的数据增强方法、基于RGB视觉特征的微手势识别，以及时态上下文建模（temporal context modeling）以捕捉微手势的细微变化。
研究亮点
 1. 提出了结合骨架嵌入和语义嵌入损失的微手势分类方法，显著提升了分类性能。
 2. 在IJCAI 2023的MIGA挑战赛中取得了第一名，证明了方法的有效性。
 3. 通过消融实验和对比实验，验证了语义嵌入损失和联合模态数据对模型性能的贡献。
 4. 研究结果为微手势识别领域提供了新的技术路径，尤其是在处理不均衡数据方面具有创新性。
其他有价值的内容
 本研究得到了中国国家自然科学基金（72188101、62020106007、62272144、U20A20183）和安徽省重大专项（202203A05020011）的支持。研究团队还计划在未来进一步优化模型，探索更多应用场景。
这篇报告详细介绍了研究的背景、方法、结果和意义，为相关领域的研究人员提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问