分享自:

增强人体关键点特征的姿态估计算法

期刊:计算机辅助设计与图形学学报DOI:10.3724/sp.j.1089.2023-00706

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


1. 研究作者与机构
本研究由刘赏(天津财经大学理工学院教授)、代娆周煜炜董林芳(天津财经大学理工学院副教授)合作完成,发表于《Journal of Computer-Aided Design & Computer Graphics》202*年第3*卷第*期。研究得到天津市科技计划项目(22ZLZKZF00480)和天津市自然科学基金(22JCYBJC01550)资助。


2. 学术背景
科学领域:计算机视觉中的二维多人姿态估计(2D Multi-Person Pose Estimation)。
研究动机:现有基于回归的单阶段方法(如YOLO-Pose)存在两大局限:
- 对人体关节的结构特征提取不足,导致关键点偏移(如相邻关节错误联动);
- 多尺度特征融合能力弱,小目标关键点信息易丢失。
研究目标:提出Py-Pose算法,通过增强人体关键点局部/全局特征及多尺度融合能力,提升姿态估计精度。


3. 研究方法与流程
研究分为特征提取网络特征融合网络、检测头和后处理四部分,核心创新为CMixF3结构APCA结构的开发。

3.1 特征提取网络改进
- 问题:传统C3模块依赖卷积操作,仅能提取局部特征,忽略关节全局关联性。
- 解决方案:提出CMixF3结构,将多头自注意力机制(Multi-Head Self-Attention Mechanism, MHSAM)与深度卷积(Depthwise Convolution, DWConv)并行:
- MHSAM分支:通过4个头捕捉关键点间全局空间关系;
- DWConv分支:提取局部通道特征;
- 双向交互:通过全局平均池化(GAP)和Sigmoid函数,实现空间-通道维度特征互补。
- 验证实验:在COCO2017数据集上,CMixF3使AP提升0.6%,AR提升0.8%。

3.2 特征融合网络改进
- 问题:特征金字塔下采样时,深层语义信息丢失严重。
- 解决方案:提出空洞金字塔坐标注意力(APCA)结构,串联坐标注意力机制(Coordinate Attention Mechanism, CAM)与空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling, ASPP):
- CAM阶段:将特征图分解为垂直/水平一维编码,捕获跨通道信息;
- ASPP阶段:采用膨胀率1/2/5的空洞卷积扩大感受野,减少小目标信息丢失;
- 轻量化设计:使用深度可分离卷积降低参数量。
- 验证实验:APCA使COCO2017数据集的AP提升0.7%,遮挡数据集Oc-Human的AP提升2.3%。

3.3 实验设置
- 数据集
- COCO2017:57K训练集+5K验证集,标注17个关键点;
- Oc-Human:4731张含严重遮挡的图像。
- 环境:RTX 3090 GPU,PyTorch框架,输入图像分辨率960×960。
- 评估指标:基于关键点相似度(OKS)的AP、AR及其变体(如AP50、AP75)。


4. 主要结果
4.1 性能对比
- COCO2017:Py-Pose的AP达63.5%,较基准YOLO-Pose(62.6%)提升0.9%;遮挡场景下AR75提升1.6%。
- Oc-Human:AP提升2.3%,证明算法对遮挡的鲁棒性。

4.2 消融实验
- CMixF3单独作用:AP提升0.6%,验证全局特征提取的有效性;
- APCA单独作用:AP提升0.7%,验证多尺度融合的贡献;
- 联合作用:指标全面优于单一模块,显示协同效应。

4.3 可视化分析
- 注意力图对比:CMixF3使网络更聚焦于关节结构(如避免手肘错误联动);APCA增强了对遮挡关键点的定位能力(图8、图9)。


5. 结论与价值
科学价值
- 提出首例结合MHSAM与DWConv并行策略的CMixF3,解决关节结构特征提取不足问题;
- 设计轻量化APCA结构,首次将CAM与ASPP串行融合,提升多尺度特征融合能力。
应用价值:算法可应用于视频监控、运动分析等领域,尤其在遮挡场景下表现优异。


6. 研究亮点
- 方法创新:CMixF3和APCA均为原创结构,代码已开源;
- 性能优势:在保持YOLO-Pose速度的同时,精度显著提升;
- 跨数据集验证:同时在通用(COCO)和遮挡(Oc-Human)数据集上验证普适性。


7. 其他价值
- 可扩展性:作者指出未来可通过改进NMS算法优化大目标检测,并探索姿态多分类任务。
- 工程友好性:模型参数量仅增加4.3M(总参数量19.4M),适合嵌入式部署。


(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com