Amélioration de la Capture de Mouvement sans Marqueurs pour le Golf et le Baseball à l'aide de RTMPose et RTMDet : Une Approche Descendante
Amélioration de la Capture de Mouvement sans Marqueurs pour le Golf et le Baseball à l’aide de RTMPose et RTMDet : Une Approche Descendante
Résumé
Ce document technique décrit l’application de RTMPose et RTMDet pour une estimation de posture précise et efficace des swings de golf et de baseball. En exploitant des techniques de pointe optimisées pour une performance en temps réel, ces modèles permettent un suivi détaillé des mouvements du corps pendant les swings de golf et de baseball—une fonctionnalité essentielle pour améliorer la performance en analyse sportive. Nous mettons en évidence les avantages d’une Approche Descendante, où un détecteur RTMDet prêt à l’emploi identifie le golfeur et le joueur de baseball dans chaque Cadre, et RTMPose estime les positions des Articulations clés du corps.
1. Introduction
L’Estimation de posture est devenue pivot dans l’analyse de la performance sportive, permettant un suivi précis des mouvements des Athlètes. Au golf et au baseball, la capture des données biomécaniques du swing d’un joueur fournit des informations précieuses sur la dynamique du swing, aidant les professionnels et les amateurs à affiner leurs techniques. Les méthodes traditionnelles d’estimation de posture 2D font souvent face à des défis de latence et de précision, particulièrement dans les scénarios en temps réel. Cet article propose une solution utilisant RTMPose et RTMDet au sein du mmpose Framework pour une estimation de posture détaillée pendant les swings de golf et de baseball.
2. Contexte
La complexité des swings de golf et de baseball nécessite une mesure précise des mouvements du corps. Les méthodes d’estimation de posture existantes peuvent ne pas fournir la précision nécessaire pour une performance en temps réel. Les avancées en apprentissage profond et en vision par ordinateur ont introduit des modèles comme RTMPose et RTMDet, qui offrent une précision et une efficacité améliorées.
3. Approche descendante avec RTMdet et RTMpose
–insert figure–
3. RTMPose : Un Modèle d’Estimation de Posture Haute Performance
RTMPose [1] est conçu pour une estimation de posture haute performance et en temps réel, optimisé pour fonctionner efficacement sur du matériel limité.
Fonctionnalités clés :
Architecture de modèle et efficacité : RTMpose utilise CSPNeXt comme épine dorsale [1, 2], équilibrant vitesse et précision. CSPNeXt est optimisé pour les tâches de prédiction dense comme l’estimation de posture et la détection d’Objets, offrant une haute résolution et une précision tout en maintenant l’efficacité computationnelle.
Prédiction de Points clés : Utilise un algorithme basé sur SimCC [1, 3], traitant les positions horizontale et Vertical des Points clés comme des tâches de classification séparées. Cette représentation compacte réduit la charge computationnelle et convient au déploiement sur divers appareils.
4. RTMDet : L’épine dorsale de détection
RTMDet [4] agit comme le détecteur précédant RTMPose dans le pipeline descendant, identifiant l’emplacement du golfeur ou du joueur de baseball dans chaque Cadre.
Fonctionnalités clés :
Architecture de modèle et efficacité : RTMDet utilise une version modifiée de CSPDarkNet [5] plus trainable et précise que nombre des modèles YOLO. La version modifiée exploite des convolutions en profondeur à grand noyau pour équilibrer complexité et vitesse et est efficace sur GPU et CPU. C’est idéal pour les applications en temps réel comme le suivi de la performance sportive.
Polyvalence : Gère diverses tâches de détection d’Objets, notamment la Segmentation d’instances et la détection d’Objets rotatifs. Assure une localisation précise du joueur, même dans des scènes dynamiques.
5. Avantages de l’utilisation de RTMDet et RTMPose dans l’analyse du swing de golf et de baseball
5.1 Précision plus élevée dans les scènes peu peuplées
Dans les paramètres golf/baseball typiques avec peu d’individus dans le Cadre, RTMDet isole le golfeur/joueur de baseball, permettant à RTMPose de traiter chaque personne détectée avec une haute précision. Cela évite la complexité des méthodes ascendantes qui traitent tous les Points clés pour toutes les personnes du Cadre simultanément. L’Approche Descendante peut également inclure l’algorithme de post-traitement de RTMdet identifiant la bonne personne (c’est-à-dire le golfeur ou le joueur de baseball) avant d’effectuer l’estimation de posture. De plus, RTMPose a été pré-entraîné sur du matériel d’image étendu contenant
5.2 Calcul efficace et performance en temps réel
L’utilisation de modèles légers, comme RTMdet et RTMpose, maintient une faible latence, permettant une analyse de swing en temps réel sur du matériel grand public. Ceci est particulièrement utile pour fournir des commentaires en direct immédiats lors de séances d’entraînement ou de coaching. Le système de Capture de Mouvement sans Marqueurs Swing Catalyst est l’un des rares systèmes de studio qui fournissent des commentaires en direct de capture de mouvement aux golfeurs et joueurs de baseball.
5.3 Analyse détaillée des Points clés
RTMPose détecte un ensemble de 26 Points clés du corps [6] affichés dans la figure 1 ci-dessous, essentiels pour analyser la Cinématique du swing de golf et de baseball. Halpe26 est un ensemble étendu qui inclut des marqueurs supplémentaires sur les pieds et la tête par rapport à l’ensemble COCO plus standard avec 17 marqueurs.
–Insert Figure–
6. Méthodologie pour la Capture de Mouvement sans Marqueurs du Golf et du Baseball
6.1 Phase de détection : RTMDet
Appliqué à des Trames vidéo d’un golfeur ou d’un joueur de baseball, RTMDet génère des Boîtes englobantes autour du joueur, qui sont passées à RTMPose. Cela concentre l’estimation de posture sur les régions d’image pertinentes, réduisant la charge computationnelle.
–Insert Image–
6.2 Phase d’estimation de posture : RTMPose
RTMPose estime les positions des Points clés dans la Boîte englobante. Les Articulations critiques pour l’analyse du swing de golf et de baseball incluent les Poignets, les Coudes, les Épaules, les Hanches et les Genoux. Ces Points clés évaluent les Angles du corps et les positions pendant les phases du swing : Remontée, Descente et Suivi.
–Insert Image–
6.3 Métriques de performance
La performance générale de RTMPose est mesurée à l’aide de métriques comme la Précision Moyenne (AP) sur des références d’estimation de posture comme MS COCO. Ci-dessous se trouve la performance des meilleurs modèles classés sur le repère COCO couramment utilisé. Sur le dataset de validation MS COCO, RTMPose-X est le modèle le plus performant capable de fournir des commentaires en temps réel et atteint jusqu’à 75,8 % AP avec des Fréquences d’images dépassant ?? FPS sur les GPU grand public, le rendant adapté à l’analyse sportive Haute vitesse.
Rang Modèle Résolution Taille/paramètres (Mill) AP Inférence en temps réel
1 Sapiens-2B 1024x768 2000 82.2 Non
2 Sapiens-1B 1024x768 1000 82.1 Non
3 Sapiens-0.6B 1024x768 600 81.2 Non
4 Sapiens-0.3B 1024x768 300 79.6 Non
5 VitPose-H 256x192 632 79.4 Non
6 RTMPose-X 384x288 49 78.8 Oui
7 VitPose-L 256x192 307 78.6 Non
8 RTMPose-L 384x288 28 78.3 Oui
9 HRFormer 256x192 43 77.2 Non
10 HRNet-UDP 384x288 64 77.2 Oui
11 VitPose-B 256x192 86 77.0 Oui
12 RTMPose-L 256x198 28 76.7 Oui
13 RTMPose-M 384x288 14 76.6 Oui
14 HRNet 384x288 64 76.3 Oui
15 VitPose-S 256x192 43 75.8 Oui
16 RTMPose-M 256x192 14 74.9 Oui
17 SimpleBaseline 256x192 60 73.5 Oui
18 FastPose 256x192 79 73.3 Oui
7. Application dans l’Analyse du Swing de Golf
En appliquant le framework RTMPose-X et RTMDet-M :
Suivre les Mouvements des Articulations Cadre par Cadre : Fournit des données complètes pour analyser chaque phase du swing.
Fournir des Retours en Temps Réel : Permet d’obtenir des insights immédiats sur la posture et la forme du swing lors des sessions d’entraînement.
Comparer avec la Mécanique Idéale : Permet la comparaison avec la cinématique de swing idéale pour identifier les domaines à améliorer.
8. Conclusion
L’intégration de RTMPose-X et RTMDet-M offre une solution puissante pour l’analyse en temps réel du swing de golf. Avec une haute précision, une faible latence et une compatibilité sur diverses plateformes matérielles, cette approche descendante fournit des insights détaillés sur la mécanique du swing. Elle a un potentiel significatif pour aider les golfeurs amateurs et professionnels à améliorer leur performance.
9. Travaux Futurs
Les développements futurs pourraient impliquer :
Intégrer des Algorithmes d’Apprentissage Automatique : Pour fournir des analyses prédictives et suggérer des ajustements afin d’améliorer l’efficacité du swing.
Étendre à des Scénarios Multi-Personnes : Améliorer l’applicabilité dans les sports d’équipe ou les environnements d’entraînement en groupe.
Développer une Interface Conviviale : Créer des applications ou des outils qui rendent cette technologie accessible aux entraîneurs et aux athlètes sans expertise technique.
Annexe
Méthodologie Détaillée : Approche Descendante pour l’Estimation de Posture du Swing de Golf Utilisant RTMPose-X et RTMDet-M
Aperçu
La méthodologie décrite ici explique les étapes détaillées impliquées dans une approche descendante pour l’estimation de posture en temps réel d’un swing de golf et de baseball, exploitant les forces de RTMPose pour la localisation des points clés et RTMDet pour la détection d’objets. Le processus est divisé en plusieurs étapes : détection, localisation des points clés et post-traitement, chacune contribuant à l’estimation précise et efficace des articulations du corps dans un swing de golf pour l’analyse biomécanique.
–Insérer figure–
1. Phase de Détection : Localisation en Temps Réel avec RTMDet-M
La première étape de l’approche descendante implique de détecter le golfeur dans chaque cadre de la vidéo. Dans les scénarios sportifs, particulièrement le golf, la scène se compose généralement d’un seul joueur, ce qui simplifie la tâche de détection par rapport aux scènes de foule.
1.1 Architecture du Modèle
RTMDet-M est utilisé comme détecteur d’objets dans le pipeline. Il utilise un réseau neuronal convolutif (CNN) avec un backbone, spécifiquement le backbone CSPNeXt, conçu pour optimiser les performances de détection d’objets en temps réel tout en maintenant un équilibre entre vitesse et précision. Les aspects clés de l’architecture incluent :
Convolutions en profondeur à noyaux larges : Celles-ci sont utilisées dans les couches backbone et neck, augmentant le champ réceptif tout en maintenant un coût de calcul faible.
Réseau de pyramide de caractéristiques (FPN) : Une technique d’extraction de caractéristiques multi-échelles qui permet la détection d’objets à diverses échelles, garantissant que le golfeur peut être détecté indépendamment de sa distance par rapport à la caméra.
1.2 Attribution Dynamique des Étiquettes
RTMDet-M exploite une stratégie d’attribution dynamique d’étiquettes qui améliore la précision de détection en attribuant des étiquettes souples aux objets en fonction d’une combinaison de perte de classification et de localisation. L’attribution d’étiquettes est régie par l’algorithme SimOTA, qui sélectionne dynamiquement les échantillons positifs en fonction de leur probabilité de correspondre à l’objet de vérité au sol. Cette méthode garantit une détection robuste dans les conditions d’éclairage et environnementales variables souvent rencontrées dans les scènes de golf en plein air.
1.3 Prédiction de Boîte englobante
Le détecteur produit des boîtes englobantes qui encadrent le golfeur dans chaque trame. Ces boîtes englobantes fournissent des contraintes spatiales au sein desquelles le modèle d’estimation de posture opérera, réduisant la charge de calcul de la phase d’estimation de posture suivante en se concentrant uniquement sur les zones pertinentes de la trame. Dans ce contexte, RTMDet-M génère des boîtes englobantes en temps réel à plus de 300 FPS sur du matériel haute performance, garantissant qu’il peut suivre la dynamique rapide d’un swing de golf.
1.4 Suppression Non-Maximale de Personne (NMS)
Dans les paramètres multi-personne (bien que rares dans l’analyse de swing de golf), RTMDet-M intègre un algorithme de Suppression Non-Maximale de posture (NMS) qui élimine les détections de points clés redondantes, garantissant que seules les détections les plus fiables sont conservées pour chacun. Ceci est crucial dans les cas où des boîtes englobantes chevauchantes pourraient être détectées dans des scènes encombrées ou des séquences vidéo.
1.5 Dataset d’entraînement et performance
RTMDet-M est entraîné sur une tâche de classification binaire sur les instances de personne dans le dataset Object356.
2. Phase d’Estimation de posture : Localisation de Points clés RTMPose-X
Une fois que la boîte englobante pour le golfeur a été établie, la phase suivante implique d’estimer la localisation précise des articulations clés du corps au sein de cette région. RTMPose-X, un modèle d’estimation de posture haute performance, est utilisé à cette fin.
2.1 Localisation de Points clés basée sur SimCC
RTMPose-X utilise l’algorithme SimCC (Simple Coordinate Classification), qui traite la localisation de points clés comme un problème de classification. Contrairement aux méthodes traditionnelles basées sur les cartes thermiques, SimCC divise les coordonnées x et y de chaque point clé en bacs et classe le bac exact où chaque point clé se trouve. Cette approche réduit considérablement la complexité de calcul et améliore la vitesse d’inférence tout en maintenant une haute précision pour les tâches d’estimation de posture humaine.
2.2 Backbone CSPNeXt
Similaire à RTMDet-M, RTMPose-X utilise également le backbone CSPNeXt, qui est adapté aux tâches de prédiction dense telles que l’estimation de posture. Le backbone CSPNeXt est avantageux dans ce scénario pour les raisons suivantes :
Architecture légère : L’architecture du modèle est conçue pour minimiser le nombre de paramètres tout en maximisant le débit, la rendant idéale pour les applications en temps réel.
Extraction de caractéristiques efficace : Les couches d’extraction de caractéristiques de CSPNeXt sont optimisées pour traiter les images haute résolution, ce qui est crucial pour détecter les petits détails dans les parties du corps se déplaçant rapidement lors d’un swing de golf, tels que les poignets, les coudes et les genoux.
2.3 Représentation des Points clés
RTMPose-X produit les localisations de points clés pour toutes les parties du corps pertinentes, notamment :
Articulations du haut du corps : épaules, coudes, poignets et cou
Articulations du bas du corps : hanches, genoux et chevilles
Articulations supplémentaires : tête, colonne vertébrale et autres points clés pertinents pour l’analyse de swing
La résolution de 384x288 pour les images d’entrée garantit que même les mouvements subtils des articulations peuvent être capturés avec précision, tout en maintenant la capacité du système à fonctionner en temps réel.
2.4 Prétraitement de RTMPose : Traitement des Données Impartial (UDP)
Avant que l’image recadrée ne soit entrée dans le modèle RTMpose, une étape de Traitement des Données Impartial (UDP) est effectuée. UDP aborde les biais critiques dans le traitement des données de RTMpose lors de l’entraînement et du test, spécifiquement dans les transformations du système de coordonnées et du format de points clés. Dans les pipelines conventionnels d’estimation de posture humaine, les opérations standard telles que le retournement et le redimensionnement causent souvent un désalignement des résultats, en particulier en raison des transformations basées sur les pixels, ce qui entraîne une perte de précision et un désalignement des images retournées. UDP corrige cela en établissant une transformation du système de coordonnées impartiale, préservant l’alignement sémantique entre les différents espaces de coordonnées lors des opérations essentielles (recadrage, redimensionnement, rotation, retournement). UDP introduit également une transformation du format de points clés impartiale en codant les points clés dans des cartes thermiques sans introduire de biais positional, affinée davantage par un processus de décodage conscient de la distribution gaussienne. Cette approche de traitement des données améliore systématiquement la performance du modèle, comme le montrent les tests extensifs sur les datasets COCO et CrowdPose, où elle a obtenu une précision améliorée et une latence d’inférence réduite sur les modèles top-down et bottom-up [Ref].
3. Post-traitement et Raffinement de la Posture
Une fois que les points clés sont prédits, plusieurs étapes de post-traitement sont appliquées pour affiner l’estimation de posture et assurer la stabilité entre les trames.
3.1 Lissage de la Posture
Les swings de golf impliquent un mouvement rapide, qui peut introduire du bruit ou des fluctuations dans les positions des points clés estimées entre les trames. Pour atténuer cela, un Filtre One-Euro est appliqué pour lisser les trajectoires des points clés au fil du temps, garantissant que les petites fluctuations non physiques dans les prédictions des points clés sont éliminées. Le Filtre One-Euro fonctionne en ajustant dynamiquement la bande passante du filtre en fonction de la vitesse du mouvement, ce qui est idéal pour les scénarios comme les swings de golf, où le mouvement varie considérablement en vitesse entre les différentes phases (remontée, descente et suivi).
3.2 Mécanisme de Saut de Trame
Pour une optimisation supplémentaire, un mécanisme de saut de trame est mis en œuvre, où la détection est effectuée uniquement sur les trames clés, et l’estimation de posture est interpolée pour les trames intermédiaires. Cela réduit drastiquement la charge de calcul sans sacrifier la précision dans les scénarios avec un mouvement limité entre les trames, comme l’analyse au ralenti d’un swing de golf.
4. Suivi Temporel et Cohérence de Séquence
Étant donné que les swings de golf sont intrinsèquement séquentiels, maintenir la cohérence temporelle dans l’estimation de posture est vital. RTMPose-X aborde cela par des techniques de suivi temporel, qui garantissent que les prédictions de points clés sont cohérentes entre les trames consécutives. Cela implique le suivi des positions des points clés au fil du temps et la garantie que leurs trajectoires suivent des modèles de mouvement réalistes basés sur les contraintes biomécaniques.
4.1 Analyse de Vélocité et d’Accélération des Points clés
En plus du suivi des positions des points clés, RTMPose-X estime également la vélocité et l’accélération de chaque point clé. Cette information est critique pour analyser la dynamique d’un swing de golf, fournissant un aperçu des métriques de performance clés telles que :
Vitesse de swing : Calculée en fonction de la vélocité du poignet pendant la descente.
Rotation de la Hanche : Analysée par la vélocité de rotation des articulations de la hanche.
Trajectoire de Club et vitesse de tête : Inférées indirectement à partir des trajectoires du poignet et du coude.
Ces métriques peuvent être comparées aux valeurs de référence professionnelles pour offrir des commentaires sur la mécanique du swing d’un joueur.
5. Inférence et Performance en Temps Réel
L’ensemble du pipeline top-down est optimisé pour une performance en temps réel, permettant l’estimation de posture à plus de 90 FPS sur les GPU modernes. L’utilisation d’architectures de modèle hautement efficaces (CSPNeXt) et de techniques d’inférence rapides (SimCC) garantit que le système peut gérer l’entrée vidéo à haute fréquence d’images, le rendant adapté aux commentaires en temps réel lors des sessions d’entraînement.
6. Évaluation et Validation
Les modèles RTMPose-X et RTMDet-M sont évalués sur des datasets standards tels que COCO et MPII, montrant une performance forte avec une précision moyenne (AP) de 75,8% sur le dataset COCO pour les points clés du corps. Ces résultats sont validés contre les annotations de vérité terrain dans les datasets de swing de golf, garantissant la robustesse du modèle dans la capture des mouvements sportifs dynamiques.
6.1 Métriques de Performance
Erreur Quadratique Moyenne (MSE) : Utilisée pour quantifier la précision des prédictions de Points clés par rapport aux annotations de vérité terrain.
Précision Moyenne (AP) : Évalue la Performance globale du modèle d’Estimation de posture.
Temps de Traitement par Cadre : Testé pour s’assurer que le système répond aux exigences de traitement en temps réel (<10 ms par Cadre).
7. Conclusion
L’Approche Descendante utilisant RTMPose-X et RTMDet-M fournit une méthode efficace et précise pour l’Estimation de posture en temps réel dans l’analyse sportive, spécifiquement pour l’analyse du swing de golf. Avec une détection robuste des Points clés, un suivi temporel et une inférence en temps réel, cette méthodologie offre des perspectives biomécaniques détaillées sur la dynamique du swing de golf, aidant à l’amélioration des performances et à la prévention des blessures.
Références
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] Dataset du défi IA :
[] Dataset MS Coco :
[7] Dataset Crowdpose : https://arxiv.org/pdf/1812.00324
[] Dataset MPII :
[] Dataset sub-JHMBD :
[] Dataset Halpe :
[] Dataset PoseTrack18 :
Base de données Object365 : https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Dernière mise à jour : 2025-03-05 | Voir sur le site d’assistance officiel