使用 RTMPose 和 RTMDet 增强高尔夫和棒球挥杆无标记动作捕捉：自上而下方法

使用 RTMPose 和 RTMDet 增强高尔夫和棒球挥杆无标记动作捕捉：自上而下方法

摘要

本白皮书阐述了 RTMPose 和 RTMDet 在高尔夫和棒球挥杆姿态估计中的应用，实现了准确而高效的姿态识别。利用为实时性能优化的最先进技术，这些模型能够详细跟踪高尔夫和棒球挥杆过程中的身体运动——这是改进运动分析表现的关键功能。我们突出了自上而下方法的优势：现成的 RTMDet 检测器在每一帧中识别高尔夫球手和棒球运动员的位置，而 RTMPose 估计关键身体关节的位置。

1. 介绍

姿态估计已成为运动表现分析的核心，能够精确跟踪运动员的运动。在高尔夫和棒球中，捕捉运动员挥杆的生物力学数据提供了对挥杆动力学的宝贵见解，帮助专业人士和业余爱好者完善技术。传统的二维姿态估计方法在实时场景中经常面临延迟和精度的挑战。本文提出了在 mmpose Framework 框架内使用 RTMPose 和 RTMDet 进行高尔夫和棒球挥杆详细姿态估计的解决方案。

2. 背景

高尔夫和棒球挥杆的复杂性要求精确测量身体运动。现有的姿态估计方法可能无法为实时表现提供必要的精度。深度学习和计算机视觉的进步引入了 RTMPose 和 RTMDet 等模型，它们提供了更高的精度和效率。

3. 使用 RTMDet 和 RTMPose 的自上而下方法

–insert figure–

3. RTMPose：高性能姿态估计模型

RTMPose [1] 为高性能、实时姿态估计而设计，优化后可在有限硬件上高效运行。

主要功能：

模型架构和效率：RTMPose 采用 CSPNeXt 作为其骨干网络 [1, 2]，在速度和精度之间取得平衡。CSPNeXt 针对姿态估计和物体检测等密集预测任务进行了优化，提供高分辨率和精度，同时保持计算效率。

关键点预测：采用基于 SimCC 的算法 [1, 3]，将关键点的水平和竖直位置视为独立的分类任务。这种紧凑的表示方法降低了计算负荷，适合在各种设备上部署。

4. RTMDet：检测骨干网络

RTMDet [4] 在自上而下管道中充当 RTMPose 前面的检测器，识别每一帧中高尔夫球手或棒球运动员的位置。

主要功能：

模型架构和效率：RTMDet 采用了改进版本的 CSPDarkNet [5]，比许多 YOLO 模型更可训练和精确。改进版本利用大核深度卷积来平衡复杂性和速度，在 GPU 和 CPU 上都很高效。它非常适合运动表现跟踪等实时应用。

多功能性：处理各种物体检测任务，包括实例分割和旋转物体检测。确保在动态场景中精确定位运动员的位置。

5. 在高尔夫和棒球挥杆分析中使用 RTMDet 和 RTMPose 的优势

5.1 在非拥挤场景中精度更高

在典型的高尔夫/棒球场景中，画面中只有少数几个人，RTMDet 可隔离高尔夫球手/棒球运动员，使 RTMPose 能够以高精度处理每个检测到的人。这避免了自下而上方法同时处理画面中所有人员所有关键点的复杂性。自上而下方法还可以包含 RTMDet 的后处理算法，在执行姿态估计前识别正确的人员（即高尔夫球手或棒球运动员）。此外，RTMPose 已在包含扩展图像材料的数据集上进行了预训练

5.2 高效计算和实时表现

使用 RTMDet 和 RTMPose 等轻量级模型可保持低延迟，在消费级硬件上实现实时挥杆分析。这对于在教练或训练课程中提供即时的实时反馈特别有用。SwingCatalyst 无标记动作捕捉系统是少数几个为高尔夫球手和棒球运动员提供实时动作捕捉反馈的工作室系统之一。

5.3 详细的关键点分析

RTMPose 检测由 26 个身体关键点组成的配置 [6]，如下图 1 所示，这些关键点对于分析高尔夫和棒球挥杆运动学至关重要。Halpe26 是一个扩展配置，与标准 Coco 配置（17 个标记点）相比，在脚部和头部包含了额外的标记点。

–Insert Figure–

6. 高尔夫和棒球挥杆无标记动作捕捉的方法论

6.1 检测阶段：RTMDet

应用于高尔夫球手或棒球运动员的视频帧，RTMDet 生成围绕运动员的边界框，并将其传递给 RTMPose。这将姿态估计聚焦于相关的图像区域，降低计算负荷。

–Insert Image–

6.2 姿态估计阶段：RTMPose

RTMPose 估计边界框内的关键点位置。高尔夫和棒球挥杆分析中的关键关节包括腕部、肘关节、肩部、髋关节和膝盖。这些关键点评估挥杆阶段（反向挥杆、下杆动作和随伴动作）期间的身体角度和位置。

–Insert Image–

6.3 性能指标

RTMPose 的总体表现采用平均精度 (AP) 等指标在 MS COCO 等姿态估计基准上测量。下表为常用 Coco 基准上表现最佳的模型的性能。在 MS COCO val 数据集上，RTMPose-X 是表现最佳的模型，能够提供实时反馈，在消费级 GPU 上实现高达 75.8% 的 AP，帧率超过 ?? FPS，非常适合高速运动分析。

排名模型分辨率大小/参数（百万） AP 实时推理

1 Sapiens-2B 1024x768 2000 82.2 否

2 Sapiens-1B 1024x768 1000 82.1 否

3 Sapiens-0.6B 1024x768 600 81.2 否

4 Sapiens-0.3B 1024x768 300 79.6 否

5 VitPose-H 256x192 632 79.4 否

6 RTMPose-X 384x288 49 78.8 是

7 VitPose-L 256x192 307 78.6 否

8 RTMPose-L 384x288 28 78.3 是

9 HRFormer 256x192 43 77.2 否

10 HRNet-UDP 384x288 64 77.2 是

11 VitPose-B 256x192 86 77.0 是

12 RTMPose-L 256x198 28 76.7 是

13 RTMPose-M 384x288 14 76.6 是

14 HRNet 384x288 64 76.3 是

15 VitPose-S 256x192 43 75.8 是

16 RTMPose-M 256x192 14 74.9 是

17 SimpleBaseline 256x192 60 73.5 是

18 FastPose 256x192 79 73.3 是

7. 高尔夫挥杆分析中的应用

通过应用 RTMPose-X 和 RTMDet-M 框架：

逐帧追踪关节运动：为分析挥杆各个阶段提供全面数据。

提供实时反馈：在训练过程中能够立即洞察挥杆姿态和技术形式。

与理想力学对比：允许与理想挥杆运动学进行对比，以识别需要改进的方面。

8. 总结

RTMPose-X 和 RTMDet-M 的集成为实时高尔夫挥杆分析提供了强大的解决方案。凭借高精度、低延迟和跨多种硬件平台的兼容性，这种自上而下方法能够提供关于挥杆力学的详细见解。它在帮助业余和职业高尔夫球手提升表现方面具有重大潜力。

9. 未来工作

未来的发展可能涉及：

整合机器学习算法：提供预测分析并建议改进挥杆效率的调整方案。

扩展到多人场景：增强在团队运动或集体训练环境中的适用性。

开发用户友好界面：创建应用程序或工具，使没有技术背景的教练和运动员也能使用这项技术。

附录

详细方法论：使用 RTMPose-X 和 RTMDet-M 的高尔夫挥杆姿态估计自上而下方法

概述

此处描述的方法论概述了用于高尔夫和棒球挥杆实时姿态估计的自上而下方法所涉及的详细步骤，充分利用 RTMPose 进行关键点定位和 RTMDet 进行物体检测的优势。该流程分为多个阶段：检测、关键点定位和后处理，每个阶段都有助于精确高效地估计高尔夫挥杆中的身体关节，用于生物力学分析。

–插入图表–

1. 检测阶段：使用 RTMDet-M 进行实时定位

自上而下方法的第一阶段涉及检测视频每一帧中的高尔夫球手。在体育场景中，特别是高尔夫运动中，场景通常由单个运动员组成，相比人群场景大大简化了检测任务。

1.1 模型架构

RTMDet-M 被用作管道中的物体检测器。它采用卷积神经网络 (CNN) 骨干网络，特别是 CSPNeXt 骨干网络，设计用于在保持速度和精度平衡的同时优化实时物体检测性能。架构的关键方面包括：

大核心深度可分离卷积：这些应用于骨干网络和特征提取层，在保持较低计算成本的同时增加感受野。

特征金字塔网络 (FPN)：一种多尺度特征提取技术，允许在各种尺度上检测物体，确保无论高尔夫球手距摄像头多远都能被检测到。

1.2 动态标签分配

RTMDet-M 利用动态标签分配策略，通过根据分类和定位损失的组合将软标签分配给物体来提高检测精度。标签分配由 SimOTA 算法管理，该算法根据与地面实况物体匹配的可能性动态选择正样本。这种方法确保在户外高尔夫场景中常见的各种光线和环境条件下的稳健检测。

1.3 边界框预测

检测器输出包围高尔夫球手的边界框。这些边界框在每一帧中都提供空间约束，姿态估计模型将在这些约束范围内工作，通过仅关注帧的相关区域，减少后续姿态估计阶段的计算负荷。在此背景下，RTMDet-M 在高性能硬件上以超过 300 FPS 的速度实时生成边界框，确保系统能够跟上高尔夫挥杆的快速动态。

1.4 人物非极大值抑制 (NMS)

在多人场景中（虽然在高尔夫挥杆分析中很少见），RTMDet-M 采用了姿态非极大值抑制 (NMS) 算法，该算法消除冗余的关键点检测，确保仅保留最可信的检测结果。当拥挤场景或视频序列中可能检测到重叠的边界框时，这一点至关重要。

1.5 数据集和性能

RTMDet-M 在 Object356 数据集中的人物实例上进行二元分类任务的训练。

2. 姿态估计阶段：RTMPose-X 关键点定位

一旦确定了高尔夫球手的边界框，下一阶段涉及估计此区域内关键身体关节的精确位置。为此，采用高性能的姿态估计模型 RTMPose-X。

2.1 基于 SimCC 的关键点定位

RTMPose-X 采用 SimCC（简单坐标分类）算法，该算法将关键点定位视为分类问题。与传统的热力图方法不同，SimCC 将每个关键点的 x 和 y 坐标分成多个区间，并分类确定每个关键点所在的确切区间。这种方法显著降低了计算复杂度，提高了推理速度，同时为人体姿态估计任务保持了高精度。

2.2 CSPNeXt 主干网络

与 RTMDet-M 类似，RTMPose-X 也使用 CSPNeXt 主干网络，该网络针对密集预测任务（如姿态估计）进行了优化。CSPNeXt 主干网络在此场景中具有以下优势：

轻量级架构：模型架构设计用于最小化参数数量，同时最大化吞吐量，非常适合实时应用。

高效特征提取：CSPNeXt 的特征提取层经过优化，可处理高分辨率图像，这对于检测高尔夫挥杆期间快速移动的身体部位（如腕部、肘关节和膝盖）的细微细节至关重要。

2.3 关键点表示

RTMPose-X 输出所有相关身体部位的关键点位置，包括：

上身关节：肩部、肘关节、腕部和颈部

下身关节：髋部、膝盖和踝关节

其他关键关节：头部、脊柱和其他与挥杆分析相关的关键点

384x288 的输入图像分辨率确保即使是关节的细微运动也能准确捕捉，同时保持系统实时运行的能力。

2.4 RTMPose 预处理：无偏数据处理 (UDP)

在将裁剪的图像输入到 RTMPose 模型之前，会执行无偏数据处理 (UDP) 步骤。UDP 解决了 RTMPose 在训练和测试期间数据处理中的关键偏差，特别是在坐标系和关键点格式变换方面。在传统的人体姿态估计管道中，标准操作（如翻转和调整大小）经常会导致输出不对齐，特别是由于基于像素的变换，这会导致精度损失和翻转图像的不对齐。UDP 通过建立无偏的坐标系变换来纠正这些问题，在关键操作（裁剪、调整大小、旋转、翻转）中保持语义对齐。UDP 还通过将关键点编码到热力图中而不引入位置偏差来引入无偏的关键点格式变换，并通过高斯分布感知解码过程进一步完善。这种数据处理方法系统地改进了模型性能，如在 COCO 和 CrowdPose 数据集上的广泛测试所示，在自上而下和自下而上的模型中实现了增强的精度和降低的推理延迟 [Ref]。

3. 后处理和姿态优化

一旦预测了关键点，就会应用多个后处理步骤来优化姿态估计，并确保帧间的稳定性。

3.1 姿态平滑

高尔夫挥杆涉及快速运动，这可能在跨帧的估计关键点位置中引入噪声或波动。为了减轻这一问题，应用了One-Euro 滤波器以平滑关键点轨迹，确保消除关键点预测中的小的、非物理的波动。One-Euro 滤波器通过基于运动速度动态调整滤波器的带宽来工作，这非常适合高尔夫挥杆等场景，其中运动在不同阶段（反向挥杆、下杆动作和随伴动作）的速度差异很大。

3.2 帧跳过机制

为了进一步优化，实施了帧跳过机制，其中仅在关键帧上执行检测，而对中间帧的姿态估计进行插值。这在帧间运动有限的场景中大幅降低了计算负荷，同时不牺牲精度，如高尔夫挥杆的慢动作分析。

4. 时间跟踪和序列一致性

鉴于高尔夫挥杆本质上是顺序性的，在姿态估计中保持时间一致性至关重要。RTMPose-X 通过时间跟踪技术解决了这一问题，确保关键点预测在连续帧中是一致的。这涉及随时间跟踪关键点位置，并确保其轨迹遵循基于生物力学约束的真实运动模式。

4.1 关键点速度和加速度分析

除了跟踪关键点位置外，RTMPose-X 还估计每个关键点的速度和加速度。这些信息对于分析高尔夫挥杆的动态至关重要，提供了对关键性能指标的洞察，例如：

挥杆速度：根据下杆动作期间的腕部速度计算。

髋部旋转：通过髋关节的旋转速度分析。

球杆路径和头部速度：从腕部和肘关节的轨迹间接推断。

这些指标可与专业基准进行比较，以提供关于球手挥杆力学的反馈。

5. 推理和实时性能

整个自上而下的管道为实时性能进行了优化，允许在现代 GPU 上以超过 90 FPS 的速度进行姿态估计。采用高效的模型架构 (CSPNeXt) 和快速推理技术 (SimCC) 确保系统能够处理高帧率视频输入，使其适合在训练会议期间进行实时反馈。

6. 评估和验证

RTMPose-X 和 RTMDet-M 模型在 COCO 和 MPII 等标准数据集上进行了评估，在 COCO 数据集的身体关键点上显示出强大的性能，平均精度 (AP) 为 75.8%。这些结果针对高尔夫挥杆数据集中的真实标注进行了验证，确保模型在捕捉动态运动动作时的稳健性。

6.1 性能指标

均方误差 (MSE)：用于量化关键点预测相对于真实标注的准确度。

平均精度 (AP)：评估姿态估计模型的整体性能。

帧处理时间：基准测试确保系统满足实时需求（每帧 <10 毫秒）。

7. 结论

使用 RTMPose-X 和 RTMDet-M 的自上而下方法为运动分析中的实时姿态估计提供了一种高效且精确的方法，特别是针对高尔夫挥杆分析。凭借强大的关键点检测、时间跟踪和实时推理能力，这种方法论能够提供高尔夫挥杆动力学的详细生物力学见解，有助于性能改进和伤害预防。

参考文献

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI challenge dataset：

[] MS Coco dataset：

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset：

[] sub-JHMBD dataset：

[] Halpe dataset：

[] PoseTrack18 dataset：

Object365 database: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf

最后更新：2025-03-05 | 在官方支持网站上查看