使用 RTMPose 和 RTMDet 增強高爾夫和棒球揮桿無標記動作擷取：由上而下方法

使用 RTMPose 和 RTMDet 增強高爾夫和棒球揮桿無標記動作擷取：由上而下方法

摘要

本技術白皮書記錄了 RTMPose 和 RTMDet 在高爾夫和棒球揮桿的精確且高效姿態估計中的應用。這些模型利用針對即時性能優化的最先進技術，能夠詳細追蹤高爾夫和棒球揮桿期間的身體動作——這是改進運動分析性能的關鍵功能。我們強調由上而下方法的優勢，其中現成的 RTMDet 偵測器在每個幀中識別高爾夫球手和棒球選手，而 RTMPose 估計關鍵身體關節的位置。

1. 簡介

姿態估計已成為運動性能分析的關鍵，能夠精確追蹤運動員的動作。在高爾夫和棒球運動中，捕捉選手揮桿的生物力學數據可提供對揮桿動力學的寶貴見解，幫助專業人士和業餘愛好者改進其技術。傳統的 2D 姿態估計方法常面臨延遲和精度挑戰，特別是在即時場景中。本論文提出在 mmpose Framework 中使用 RTMPose 和 RTMDet 進行高爾夫和棒球揮桿期間詳細姿態估計的解決方案。

2. 背景

高爾夫和棒球揮桿的複雜性需要精確測量身體動作。現有的姿態估計方法可能無法為即時性能提供必要的精度。深度學習和電腦視覺的進展引入了 RTMPose 和 RTMDet 等模型，它們提供了改進的精度和效率。

3. 搭配 RTMdet 和 RTMpose 的由上而下方法

–插入圖表–

3. RTMPose：高性能姿態估計模型

RTMPose [1] 專為高性能、即時姿態估計而設計，經過優化以在有限硬體上高效運行。

主要特性：

模型架構和效率：RTMpose 使用 CSPNeXt 作為其骨幹網路 [1, 2]，在速度和精度之間取得平衡。CSPNeXt 針對密集預測任務（例如姿態估計和物體偵測）進行了優化，提供高解析度和精度，同時保持計算效率。

關鍵點預測：採用基於 SimCC 的演算法 [1, 3]，將關鍵點的水平和垂直位置視為獨立的分類任務。這種緊湊的表示法降低了計算負載，適合在各種裝置上部署。

4. RTMDet：偵測骨幹

RTMDet [4] 在由上而下管線中充當 RTMPose 之前的偵測器，識別每一幀中高爾夫球手或棒球選手的位置。

主要特性：

模型架構和效率：RTMDet 利用經過修改的 CSPDarkNet [5] 版本，比許多 YOLO 模型更具可訓練性和精度。修改後的版本利用大核心深度卷積來平衡複雜性和速度，在 GPU 和 CPU 上都很高效。它非常適合運動性能追蹤等即時應用。

多功能性：處理各種物體偵測任務，包括實例分割和旋轉物體偵測。確保即使在動態場景中也能精確定位選手。

5. 在高爾夫和棒球揮桿分析中使用 RTMDet 和 RTMPose 的優勢

5.1 在非擁擠場景中的更高精度

在典型的高爾夫/棒球設定中，幀內只有少數個人，RTMDet 隔離高爾夫球手/棒球選手，使 RTMPose 能以高精度處理每個檢測到的人。這避免了同時處理幀內所有人的所有關鍵點的自下而上方法的複雜性。由上而下方法還可以在執行姿態估計之前包含 RTMdet 的後期處理演算法，以識別正確的人（即高爾夫球手或棒球選手）。此外，RTMPose 已在包含以下內容的擴展影像素材上進行了預訓練

5.2 高效計算和即時性能

使用輕量級模型（如 RTMdet 和 RTMpose）可保持低延遲，在消費級硬體上實現即時揮桿分析。這對於在教練或訓練課程中提供即時回饋特別有用。Swing Catalyst 無標記動作擷取系統是少數幾個為高爾夫球手和棒球選手提供即時動作擷取回饋的工作室系統之一。

5.3 詳細的關鍵點分析

RTMPose 檢測到 26 個身體關鍵點的設置 [6]，如下圖 1 所示，對於分析高爾夫和棒球揮桿運動學至關重要。Halpe26 是一個擴展設置，與具有 17 個標記的更標準的 COCO 設置相比，在腳部和頭部包含了額外的標記點。

–插入圖表–

6. 高爾夫和棒球揮桿無標記動作擷取的方法論

6.1 偵測階段：RTMDet

應用於高爾夫球手或棒球選手的視頻幀，RTMDet 生成圍繞選手的邊界框，這些邊界框被傳遞給 RTMPose。這將姿態估計集中在相關影像區域，減少計算負載。

–插入影像–

6.2 姿態估計階段：RTMPose

RTMPose 估計邊界框內的關鍵點位置。高爾夫和棒球揮桿分析的關鍵關節包括腕部、肘部、肩膀、髖部和膝蓋。這些關鍵點評估揮桿階段（後揮、下揮桿和隨揮）期間的身體角度和位置。

–插入影像–

6.3 性能指標

RTMPose 的一般性能使用指標（如姿態估計基準上的平均精度 (AP)，例如 MS COCO）進行衡量。以下是常用 COCO 基準上排名最靠前的模型的性能。在 MS COCO val Dataset 上，RTMPose-X 是性能最佳的模型，能夠提供即時回饋，在消費級 GPU 上達到高達 75.8% AP 和超過 ?? FPS 的幀速率，非常適合高速運動分析。

排名模型解析度大小/參數（百萬） AP 即時推理

1 Sapiens-2B 1024x768 2000 82.2 否

2 Sapiens-1B 1024x768 1000 82.1 否

3 Sapiens-0.6B 1024x768 600 81.2 否

4 Sapiens-0.3B 1024x768 300 79.6 否

5 VitPose-H 256x192 632 79.4 否

6 RTMPose-X 384x288 49 78.8 是

7 VitPose-L 256x192 307 78.6 否

8 RTMPose-L 384x288 28 78.3 是

9 HRFormer 256x192 43 77.2 否

10 HRNet-UDP 384x288 64 77.2 是

11 VitPose-B 256x192 86 77.0 是

12 RTMPose-L 256x198 28 76.7 是

13 RTMPose-M 384x288 14 76.6 是

14 HRNet 384x288 64 76.3 是

15 VitPose-S 256x192 43 75.8 是

16 RTMPose-M 256x192 14 74.9 是

17 SimpleBaseline 256x192 60 73.5 是

18 FastPose 256x192 79 73.3 是

7. 在高爾夫揮桿分析中的應用

藉由應用 RTMPose-X 和 RTMDet-M 框架：

逐影格追蹤關節運動：提供全面的資料來分析揮桿的各個階段。

提供即時反饋：在訓練過程中能夠立即提供對揮桿姿態和動作形式的見解。

與理想力學進行比較：允許與理想揮桿運動學進行比較，以找出需要改進的領域。

8. 結論

RTMPose-X 和 RTMDet-M 的整合為即時高爾夫揮桿分析提供了強大的解決方案。具有高精度、低延遲以及跨各種硬體平台的相容性，這種由上而下方法能夠提供對揮桿力學的詳細見解。它在幫助業餘和職業高爾夫球手提升性能方面具有顯著潛力。

9. 未來工作

未來的發展可能涉及：

整合機器學習演算法：提供預測性分析並建議調整方案以改進揮桿效率。

擴展至多人場景：增強在團隊運動或群組訓練環境中的適用性。

開發使用者友善介面：建立應用程式或工具，使沒有技術專業知識的教練和運動員也能使用此技術。

附錄

詳細方法論：使用 RTMPose-X 和 RTMDet-M 進行高爾夫揮桿姿態估計的由上而下方法

概述

此處所述的方法論概述了利用 RTMPose 進行關鍵點定位和 RTMDet 進行物體偵測的優勢，進行高爾夫和棒球揮桿即時姿態估計的由上而下方法所涉及的詳細步驟。此過程分為多個階段：偵測、關鍵點定位和後期處理，每個階段都有助於精確有效地估計高爾夫揮桿中的身體關節，以進行生物力學分析。

–插入圖示–

1. 偵測階段：使用 RTMDet-M 進行即時定位

由上而下方法的第一個階段涉及在影片的每一影格中偵測高爾夫球手。在運動場景中，特別是高爾夫運動中，場景通常只包含一名球員，相比於人群場景，簡化了偵測任務。

1.1 模型架構

RTMDet-M 在管線中用作物體偵測器。它採用卷積神經網路 (CNN) 骨幹，特別是 CSPNeXt 骨幹，設計目的是在保持速度和精度平衡的同時最佳化即時物體偵測性能。架構的主要方面包括：

大核深度分離卷積：在骨幹和頸部層中使用，增加感受野同時保持低計算成本。

特徵金字塔網路 (FPN)：一種多尺度特徵萃取技術，允許在各種尺度上偵測物體，確保無論高爾夫球手距離相機多遠都能被偵測到。

1.2 動態標籤指派

RTMDet-M 利用動態標籤指派策略，根據分類和定位損失的組合將軟標籤指派給物體，以提高偵測精度。標籤指派由 SimOTA 演算法控制，該演算法根據與地面真實物體匹配的可能性動態選擇正樣本。這種方法確保在戶外高爾夫場景中經常遇到的不同光照和環境條件下的強健偵測。

1.3 邊界框預測

偵測器在每一幀中輸出包圍高爾夫球手的邊界框。這些邊界框提供空間約束，姿態估計模型將在其中運作，透過僅關注幀的相關區域來減少後續姿態估計階段的計算負載。在此背景下，RTMDet-M 在高效能硬體上以超過 300 FPS 的速度即時生成邊界框，確保能夠跟上高爾夫揮桿的快速動態。

1.4 人物非最大抑制 (NMS)

在多人設定中（雖然在高爾夫揮桿分析中很少見），RTMDet-M 採用姿態非最大抑制 (NMS) 演算法，消除冗餘的關鍵點偵測，確保只保留最可信的偵測結果。在擁擠場景或影片序列中可能偵測到重疊邊界框的情況下，這一點至關重要。

1.5 訓練 Dataset 與性能

RTMDet-M 在 Object356 Dataset 中的人物實例上進行二元分類任務的訓練。

2. 姿態估計階段：RTMPose-X 關鍵點定位

一旦確立了高爾夫球手的邊界框，下一階段涉及估計此區域內關鍵身體關節的精確位置。高效能姿態估計模型 RTMPose-X 被用於此目的。

2.1 基於 SimCC 的關鍵點定位

RTMPose-X 採用 SimCC（簡單座標分類）演算法，將關鍵點定位視為分類問題。與傳統的熱力圖方法相比，SimCC 將每個關鍵點的 x 和 y 座標分為多個箱體，並分類每個關鍵點所在的精確箱體。這種方法大幅降低計算複雜度，提高推理速度，同時為人體姿態估計任務維持高精度。

2.2 CSPNeXt 骨幹網路

與 RTMDet-M 類似，RTMPose-X 也使用 CSPNeXt 骨幹網路，其針對姿態估計等密集預測任務量身訂製。CSPNeXt 骨幹網路在此場景中的優勢如下：

輕量級架構：模型架構設計用於在最小化參數數量的同時最大化吞吐量，非常適合即時應用。

高效特徵擷取：CSPNeXt 的特徵擷取層經過最佳化以處理高解析度影像，這對於在高爾夫揮桿期間偵測快速移動身體部位（如腕部、肘部和膝蓋）的細微細節至關重要。

2.3 關鍵點表示

RTMPose-X 為所有相關身體部位輸出關鍵點位置，包括：

上身關節：肩膀、肘部、腕部和頸部

下身關節：髖部、膝蓋和踝關節

附加關節：頭部、脊柱和其他與揮桿分析相關的關鍵點

384x288 的輸入影像解析度確保即使是關節中的細微動作也能被精確捕捉，同時也保持系統即時運行的能力。

2.4 RTMPose 前處理：無偏數據處理 (UDP)

在裁剪影像進入 RTMpose 模型之前，執行無偏數據處理 (UDP) 步驟。UDP 處理 RTMpose 在訓練和測試期間的數據處理中的關鍵偏差，特別是在座標系統和關鍵點格式轉換中。在傳統人體姿態估計管線中，標準操作（如翻轉和調整大小）通常會導致輸出偏差，特別是由於像素基轉換，導致精度損失和翻轉影像的不對齊。UDP 透過建立無偏座標系統轉換來修正這些問題，在關鍵操作（裁剪、調整大小、旋轉、翻轉）中保持語義對齊。UDP 還透過將關鍵點編碼為熱力圖而不引入位置偏差，進一步透過高斯分佈感知解碼程序精化，從而引入無偏關鍵點格式轉換。這種數據處理方法系統性地改進模型性能，如在 COCO 和 CrowdPose Dataset 上的廣泛測試所示，在由上而下和由下而上模型中實現了增強的精度和降低的推理延遲 [Ref]。

3. 後期處理和姿態精化

一旦預測關鍵點，應用多個後期處理步驟來精化姿態估計並確保幀間穩定性。

3.1 姿態平滑

高爾夫揮桿涉及快速運動，這可能會在多幀中引入估計關鍵點位置的雜訊或波動。為了緩解這一問題，應用 One-Euro 濾波器以隨時間平滑關鍵點軌跡，確保消除關鍵點預測中的細微非物理波動。One-Euro 濾波器運作方式是根據動作速度動態調整濾波器的頻寬，這非常適合高爾夫揮桿等場景，其中動作在不同階段（後揮、下揮桿和隨揮）的速度差異很大。

3.2 跳幀機制

為進一步最佳化，實施 跳幀機制，其中偵測僅在關鍵幀上執行，姿態估計針對中間幀進行插值。在幀間動作有限的場景中（例如高爾夫揮桿的慢動作分析），這大幅減少計算負載而不犧牲精度。

4. 時間追蹤和序列一致性

鑑於高爾夫揮桿本質上是序列性的，在姿態估計中維持時間一致性至關重要。RTMPose-X 透過時間追蹤技術解決這個問題，確保關鍵點預測在連續幀間保持一致。這涉及隨時間追蹤關鍵點位置，並確保其軌跡遵循基於生物力學約束的現實動作模式。

4.1 關鍵點速度和加速度分析

除了追蹤關鍵點位置外，RTMPose-X 還估計每個關鍵點的速度和加速度。此資訊對於分析高爾夫揮桿的動態至關重要，提供對關鍵性能指標的見解，例如：

揮桿速度：根據下揮桿期間腕部速度計算。

髖部旋轉：透過髖關節的旋轉速度分析。

球桿路徑和頭部速度：從腕部和肘部軌跡間接推斷。

這些指標可與專業基準進行比較，以提供關於球手揮桿力學的反饋。

5. 推理和即時性能

整個由上而下管線經過最佳化以提供即時性能，在現代 GPU 上可以以超過 90 FPS 進行姿態估計。使用高效模型架構 (CSPNeXt) 和快速推理技術 (SimCC) 確保系統能夠處理高幀速率影片輸入，使其適合在訓練課程中提供即時反饋。

6. 評估和驗證

RTMPose-X 和 RTMDet-M 模型在 COCO 和 MPII 等標準 Dataset 上進行評估，在 COCO Dataset 的身體關鍵點上顯示出強大性能，平均精度 (AP) 為 75.8%。這些結果根據高爾夫揮桿 Dataset 中的地面真值標註進行驗證，確保模型在捕捉動態運動動作中的穩健性。

6.1 性能指標

均方誤差 (MSE)：用於量化關鍵點預測相對於地面真實標註的準確度。

平均精度 (AP)：評估姿態估計模型的整體性能。

幀處理時間：基準測試以確保系統滿足即時需求（每幀 <10 毫秒）。

7. 結論

使用 RTMPose-X 和 RTMDet-M 的由上而下方法為運動分析（特別是高爾夫揮桿分析）中的即時姿態估計提供了高效且準確的方法。憑藉強大的關鍵點偵測、時間追蹤和即時推理，此方法論提供了對高爾夫揮桿動力學的詳細生物力學見解，有助於改善性能和預防傷害。

參考資料

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet