分享自:

基于门控前馈网络和Mamba的人体姿态估计

期刊:sensorsDOI:10.3390/s24248158

本文介绍了一项关于人体姿态估计的研究,题为《MambaPose: A Human Pose Estimation Based on Gated Feedforward Network and Mamba》,由Jianqiang Zhang、Jing Hou、Qiusheng He、Zhengwei Yuan和Hao Xue等人共同完成,发表于2024年12月的《Sensors》期刊上。该研究由太原理工大学电子信息工程学院和天津城建大学现代城市建设产业学院的研究团队共同完成。研究旨在解决密集人群中多人姿态估计的误检和漏检问题,特别是小目标检测的准确性。

学术背景

人体姿态估计是计算机视觉领域的重要研究方向,旨在通过图像或视频准确识别人体关键点的位置和姿态。尽管深度学习技术在该领域取得了显著进展,但在密集人群场景中,多人姿态估计仍然存在误检和漏检的问题,尤其是小目标的检测精度较低。为了解决这些问题,本研究提出了一种基于Mamba结构的人体姿态估计方法,结合了门控前馈网络(Gated Feedforward Network, GFN)和Mamba模型,以提高姿态估计的准确性和鲁棒性。

研究流程

研究主要分为以下几个步骤:

  1. GMamba结构设计:研究团队设计了一种名为GMamba的骨干网络,用于提取人体关键点。GMamba在Mamba的线性层中引入了门控机制,使模型能够根据不同的输入图像动态调整权重,从而更精确地定位人体关键点。GMamba结构包括门控前馈网络(GFN)、局部特征增强(Local Feature Enhancement, LFE)和SS2D算法。GFN通过引入门控信号控制信息传递,过滤干扰信息;LFE通过局部特征增强模块,提升模型对局部信息的建模能力。

  2. 切片下采样(Slice Downsampling, SD):为了避免直接卷积下采样导致的信息丢失,研究采用了切片下采样策略。该策略通过切片操作将输入特征图分成四个子特征图,并在通道维度上进行拼接,以保留丰富的上下文信息和空间细节。切片下采样不仅有效压缩了特征图的空间维度,还确保了计算效率和信息完整性。

  3. 自适应阈值焦点损失(Adaptive Threshold Focus Loss, ATFL):为了进一步提高小目标和复杂背景下的关键点识别精度,研究引入了自适应阈值焦点损失。ATFL通过动态调整不同关键点的权重,使模型更关注难以检测的样本,从而提升姿态估计的准确性。

  4. 实验验证:研究在COCO 2017验证集上进行了实验,结果表明,MambaPose算法在AP和AP50指标上分别达到了72.2和92.6,相比典型算法在AP50上提升了1.1%。此外,研究还通过对比实验验证了GMamba、切片下采样和ATFL的有效性。

主要结果

实验结果显示,MambaPose算法在密集人群和小目标检测中表现出色。具体来说,GMamba结构相比传统的Mamba模型在AP指标上提升了0.9,切片下采样策略显著提升了模型的上下文信息提取能力,而ATFL则有效提高了小目标的检测精度。研究还通过可视化对比展示了MambaPose在复杂场景中的优势,特别是在小目标和密集人群中的检测效果优于现有的YOLO-Pose算法。

结论

本研究提出了一种基于Mamba和门控前馈网络的人体姿态估计算法,有效解决了密集人群中多人姿态估计的误检和漏检问题,特别是提高了小目标的检测精度。通过引入GMamba结构、切片下采样和自适应阈值焦点损失,研究显著提升了姿态估计的准确性和鲁棒性。该算法在复杂场景中表现出色,为计算机视觉领域的人体姿态估计提供了新的解决方案。

研究亮点

  1. GMamba结构:通过引入门控机制和局部特征增强,GMamba有效提升了模型对人体关键点的提取能力,特别是在长序列建模和局部信息捕捉方面表现出色。
  2. 切片下采样策略:切片下采样避免了传统卷积下采样导致的信息丢失,保留了丰富的上下文信息和空间细节,显著提升了模型的表达能力。
  3. 自适应阈值焦点损失:ATFL通过动态调整权重,使模型更关注难以检测的样本,特别是小目标和复杂背景下的关键点识别精度显著提高。

研究价值

本研究不仅在理论上提出了创新的算法结构,还在实际应用中展示了其在复杂场景中的优越性能。该算法为人体姿态估计在安防监控、运动分析、人机交互等领域的应用提供了技术支持,具有重要的科学价值和应用前景。未来,研究团队将进一步优化网络结构,减少模型参数和计算复杂度,以促进该算法在嵌入式设备中的部署和应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com