本研究由Junxiong Zhang(福州大学厦门工艺美术学院)、Jin Peng(广东海洋大学体育与休闲学院,通讯作者)和Kaiyun Wang(厦门大学信息学院)合作完成,发表于2025年的《Image and Vision Computing》期刊第162卷,论文标题为《Athlete Posture Estimation and Analysis Based on Embodied Artificial Intelligence》。
学术背景
该研究属于计算机视觉与人工智能交叉领域,聚焦于运动员姿态估计这一体育科学与医学的关键技术。传统姿态估计方法在复杂动态场景和多样化背景下存在精度不足、鲁棒性差等问题。随着深度学习的发展,基于卷积神经网络(CNN)的二维姿态估计取得进展,但三维姿态估计仍面临深度信息获取、多视角融合等挑战。研究团队创新性地提出融合动态图卷积网络(Dynamic Graph Convolutional Network, DGCN)、时空交错注意力机制(Spatio-Temporal Interleaved Attention, STIA)和可变长度Transformer编码器(Variable-Length Transformer Encoder, VLTE)的解决方案,旨在平衡计算效率与高精度需求,为实时姿态估计任务提供支持。
研究流程与方法
1. 动态图卷积网络(DGCN)模块
- 图结构建模:将人体关节表示为图节点,关节连接为边,通过图卷积公式(公式1)提取空间依赖关系。动态更新机制(公式2)通过自适应权重矩阵调整邻接矩阵,适应运动中的姿态变化。
- 环境感知集成:引入环境特征映射函数(公式3),使模型能根据光照、视角等外部条件动态调整图结构,提升复杂场景下的鲁棒性。
时空交错注意力机制(STIA)模块
可变长度Transformer编码器(VLTE)模块
实验验证
研究在Human3.6M和MPI-INF-3DHP两个数据集上验证了模型性能:
- Human3.6M:在检测2D姿态(CPN)和真实2D姿态(GT)条件下,平均MPJPE(关节位置误差)分别为36.9 mm和18.9 mm,显著优于Pavllo等对比方法(46.8 mm和37.8 mm)。例如,”walking”动作误差降低9.8 mm(24.2 mm vs. 33.9 mm)。
- MPI-INF-3DHP:PCK(关键点正确率)达98.0%,AUC(曲线下面积)为75.9,MPJPE仅29.1 mm,较Zhang等方法的54.9 mm提升45%。
- 消融实验:移除DGCN、STIA或VLTE任一模块均导致性能下降(如PCK从98.0%降至95.2%),验证了各模块的必要性。
结论与价值
该研究提出了一种基于具身人工智能的高精度姿态估计框架,其核心贡献包括:
1. 方法论创新:DGCN-STIA-VLTE三元架构首次实现了空间依赖、时序动态与多尺度处理的协同优化,为复杂运动场景下的姿态估计提供了新范式。
2. 技术突破:动态图结构更新、环境自适应注意力机制等设计显著提升了模型在遮挡、光照变化等挑战下的稳定性。
3. 应用价值:实验证明模型在保持28.5 FPS实时性能的同时,精度优于现有方法,可广泛应用于运动员训练分析、康复医疗等领域。
研究亮点
- 跨学科融合:将具身人工智能的感知-交互能力引入传统姿态估计任务,突破了静态模型的局限性。
- 算法效率:通过可变长度Transformer和动态图卷积的联合优化,计算量较PoseFormerV2降低9倍(0.35 GFLOPs vs. 3.12 GFLOPs)。
- 数据泛化性:在实验室(Human3.6M)和复杂真实场景(MPI-INF-3DHP)中均表现优异,验证了方法的普适性。
其他价值
研究团队开源了代码框架,并提出了未来方向:探索轻量化网络架构以进一步提升实时性,以及整合多模态数据增强复杂环境下的适应性。这些工作为体育智能分析系统的开发奠定了理论基础和技术支撑。