端到端时空信息聚合在微动作检测中的应用

分享自：
端到端时空信息聚合在微动作检测中的应用

期刊:ACM International Conference on MultimediaDOI:10.1145/3664647.3688974
本文档属于类型a，即报告了一项原创性研究。以下是该研究的学术报告：
主要作者及机构：该研究由Jun Yu、Mohan Jing、Gongpeng Zhao、Keda Lu、Yifan Wang、Feng Zhao、Jianqing Sun、Qingsong Liu和Jiaen Liang共同完成。研究团队主要来自中国科学技术大学（University of Science and Technology of China, Hefei, China），部分成员来自西安邮电大学（Xi’an University of Posts and Telecommunications）和Unisound AI Technology Co., Ltd。该研究发表于2024年10月28日至11月1日在澳大利亚墨尔本举行的第32届ACM国际多媒体会议（ACM International Conference on Multimedia, MM ’24）。
学术背景：研究领域为人工智能（Artificial Intelligence）中的视频理解（Video Understanding），具体聚焦于微动作检测（Micro-Action Detection）。微动作是指日常交流中人物传达情感的细微身体动作，如轻微点头或小幅度手势。与传统动作相比，微动作持续时间短、强度低且重叠度高，检测难度较大。准确检测微动作对视频理解至关重要，且在医疗诊断、智能车辆、面部表情识别、体育比赛和虚拟现实等领域有广泛应用。然而，由于微动作的特征提取和检测存在挑战，现有方法难以实现高精度检测。为此，本研究提出了一种新的端到端时空信息聚合方法，旨在提升微动作检测的准确性。
研究流程：研究分为以下几个步骤：
问题定义与数据集准备：研究基于MMA-52数据集进行实验，该数据集包含52类微动作，共6,528个视频，涉及203名参与者。数据集分为训练集（4,534个样本）、验证集（1,475个样本）和测试集（519个样本），总计19,782个动作实例，平均每个视频包含3-4个重叠的微动作。
模型设计与开发：研究提出了3D-SENet Adapter和Cross-Attention Aggregation Detection Head两个核心模块。3D-SENet Adapter用于聚合时空信息，通过参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）优化视频特征提取。Cross-Attention Aggregation Detection Head则通过跨注意力机制整合多尺度特征，提升小区域微动作的检测精度。
特征提取策略：研究探讨了在线特征提取（Online Feature Extraction）和离线特征提取（Offline Feature Extraction）的优劣，发现在线特征提取更适合微动作分析。此外，研究还确定了最佳帧采样间隔（每两帧提取一次特征），以避免噪声干扰。
实验与评估：研究在MMA-52数据集上进行了多标签微动作检测（Multi-Label Micro-Action Detection, MMAD）和微动作识别（Micro-Action Recognition, MAR）的实验。实验结果表明，所提方法在MMAD任务中排名第一，在MAR任务中排名第二。
结果分析：研究通过对比实验验证了3D-SENet Adapter和Cross-Attention Aggregation Detection Head的有效性。此外，研究还分析了帧采样间隔对模型性能的影响，发现过于密集的采样会引入噪声，降低检测精度。
主要结果：
 - 3D-SENet Adapter：该模块通过聚合时空信息显著提升了微动作检测的准确性。实验表明，加入3D-SENet Adapter后，模型在MMA-52测试集上的平均检测精度（Average MAP）从16.49%提升至26.33%。
 - Cross-Attention Aggregation Detection Head：该模块通过跨注意力机制整合多尺度特征，进一步提升了检测精度。实验表明，加入该模块后，模型在MMA-52测试集上的平均检测精度从24.71%提升至27.17%。
 - 帧采样间隔：实验发现，每两帧提取一次特征是最佳采样策略，既能保留足够的时间信息，又能避免噪声干扰。
结论：本研究提出的3D-SENet Adapter和Cross-Attention Aggregation Detection Head有效提升了微动作检测的准确性。3D-SENet Adapter通过聚合时空信息优化了视频特征提取，而Cross-Attention Aggregation Detection Head则通过跨注意力机制整合多尺度特征，提升了小区域微动作的检测精度。实验结果表明，所提方法在MMAD和MAR任务中均取得了优异的成绩，为微动作检测领域提供了新的解决方案。
研究亮点：
 - 创新性方法：3D-SENet Adapter和Cross-Attention Aggregation Detection Head是本研究的两大创新点，前者通过参数高效微调优化视频特征提取，后者通过跨注意力机制整合多尺度特征。
 - 实验结果优异：所提方法在MMAD任务中排名第一，在MAR任务中排名第二，验证了其有效性。
 - 应用价值：微动作检测在医疗诊断、智能车辆、面部表情识别等领域有广泛应用，本研究的成果为这些领域提供了技术支持。
其他有价值的内容：研究还探讨了帧采样间隔对模型性能的影响，发现过于密集的采样会引入噪声，降低检测精度。这一发现为视频分析中的特征提取策略提供了重要参考。
以上是对该研究的全面报告，涵盖了研究背景、流程、结果、结论及其科学价值和应用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问