分享自:

基于具身人工智能的运动员姿态估计与分析

期刊:image and vision computingDOI:10.1016/j.imavis.2025.105598

本研究由Junxiong Zhang(福州大学厦门工艺美术学院)、Jin Peng(广东海洋大学体育与休闲学院,通讯作者)和Kaiyun Wang(厦门大学信息学院)合作完成,发表于2025年的《Image and Vision Computing》期刊第162卷,论文标题为《Athlete Posture Estimation and Analysis Based on Embodied Artificial Intelligence》。

学术背景
该研究属于计算机视觉与人工智能交叉领域,聚焦于运动员姿态估计这一体育科学与医学的关键技术。传统姿态估计方法在复杂动态场景和多样化背景下存在精度不足、鲁棒性差等问题。随着深度学习的发展,基于卷积神经网络(CNN)的二维姿态估计取得进展,但三维姿态估计仍面临深度信息获取、多视角融合等挑战。研究团队创新性地提出融合动态图卷积网络(Dynamic Graph Convolutional Network, DGCN)、时空交错注意力机制(Spatio-Temporal Interleaved Attention, STIA)和可变长度Transformer编码器(Variable-Length Transformer Encoder, VLTE)的解决方案,旨在平衡计算效率与高精度需求,为实时姿态估计任务提供支持。

研究流程与方法
1. 动态图卷积网络(DGCN)模块
- 图结构建模:将人体关节表示为图节点,关节连接为边,通过图卷积公式(公式1)提取空间依赖关系。动态更新机制(公式2)通过自适应权重矩阵调整邻接矩阵,适应运动中的姿态变化。
- 环境感知集成:引入环境特征映射函数(公式3),使模型能根据光照、视角等外部条件动态调整图结构,提升复杂场景下的鲁棒性。

  1. 时空交错注意力机制(STIA)模块

    • 空间特征聚合:基于关节关系矩阵(公式4)聚合空间信息,权重通过自适应学习生成。
    • 时间特征融合:采用动态卷积核(公式5)融合时序特征,窗口大小可调以捕捉不同时间尺度的运动模式。
    • 环境自适应:通过环境特征动态调整时空权重(公式7-8),增强模型对动态场景的适应性。
  2. 可变长度Transformer编码器(VLTE)模块

    • 序列长度自适应:根据输入序列长度动态调整模型层数(公式9),处理不同时间尺度的姿态变化。
    • 多尺度注意力机制:结合时间掩码矩阵(公式10-11)捕捉多尺度时序依赖。
    • 动态位置编码:通过非线性函数(公式12)生成适应序列长度的位置编码,提升长序列建模能力。

实验验证
研究在Human3.6M和MPI-INF-3DHP两个数据集上验证了模型性能:
- Human3.6M:在检测2D姿态(CPN)和真实2D姿态(GT)条件下,平均MPJPE(关节位置误差)分别为36.9 mm和18.9 mm,显著优于Pavllo等对比方法(46.8 mm和37.8 mm)。例如,”walking”动作误差降低9.8 mm(24.2 mm vs. 33.9 mm)。
- MPI-INF-3DHP:PCK(关键点正确率)达98.0%,AUC(曲线下面积)为75.9,MPJPE仅29.1 mm,较Zhang等方法的54.9 mm提升45%。
- 消融实验:移除DGCN、STIA或VLTE任一模块均导致性能下降(如PCK从98.0%降至95.2%),验证了各模块的必要性。

结论与价值
该研究提出了一种基于具身人工智能的高精度姿态估计框架,其核心贡献包括:
1. 方法论创新:DGCN-STIA-VLTE三元架构首次实现了空间依赖、时序动态与多尺度处理的协同优化,为复杂运动场景下的姿态估计提供了新范式。
2. 技术突破:动态图结构更新、环境自适应注意力机制等设计显著提升了模型在遮挡、光照变化等挑战下的稳定性。
3. 应用价值:实验证明模型在保持28.5 FPS实时性能的同时,精度优于现有方法,可广泛应用于运动员训练分析、康复医疗等领域。

研究亮点
- 跨学科融合:将具身人工智能的感知-交互能力引入传统姿态估计任务,突破了静态模型的局限性。
- 算法效率:通过可变长度Transformer和动态图卷积的联合优化,计算量较PoseFormerV2降低9倍(0.35 GFLOPs vs. 3.12 GFLOPs)。
- 数据泛化性:在实验室(Human3.6M)和复杂真实场景(MPI-INF-3DHP)中均表现优异,验证了方法的普适性。

其他价值
研究团队开源了代码框架,并提出了未来方向:探索轻量化网络架构以进一步提升实时性,以及整合多模态数据增强复杂环境下的适应性。这些工作为体育智能分析系统的开发奠定了理论基础和技术支撑。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com