Verbesserung der markerlosen Motion Capture für Golf- und Baseball-Schwünge mit RTMPose und RTMDet: Ein Von-oben-nach-unten-Ansatz

Verbesserung der markerlosen Motion Capture für Golf- und Baseball-Schwünge mit RTMPose und RTMDet: Ein Von-oben-nach-unten-Ansatz

Zusammenfassung

Dieses Whitepaper dokumentiert die Anwendung von RTMPose und RTMDet für genaue und effiziente Posenschätzung bei Golf- und Baseball-Schwüngen. Durch den Einsatz hochmoderner, für Echtzeit-Leistung optimierter Techniken ermöglichen diese Modelle eine detaillierte Verfolgung von Körperbewegungen während Golf- und Baseball-Schwüngen – eine kritische Funktion zur Verbesserung der Leistung in der Sport-Analyse. Wir heben die Vorteile eines Von-oben-nach-unten-Ansatzes hervor, bei dem ein handelsüblicher RTMDet-Detektor den Golfer und Baseball-Spieler in jedem Bild identifiziert, und RTMPose die Positionen wichtiger Körpergelenke schätzt.

1. Einleitung

Posenschätzung ist zu einem zentralen Element in der Analyse der Sportleistung geworden und ermöglicht eine genaue Verfolgung der Bewegungen von Athleten. Im Golf und Baseball liefert die Erfassung biomechanischer Daten des Schwungs eines Spielers wertvolle Einblicke in die Schwung-Dynamik und hilft Profis und Amateuren gleichermaßen, ihre Techniken zu verfeinern. Herkömmliche 2D-Posenschätzungsmethoden haben oft mit Latenz- und Genauigkeitsproblemen zu kämpfen, besonders in Echtzeit-Szenarien. Dieses Papier schlägt eine Lösung mit RTMPose und RTMDet im mmpose Framework für detaillierte Posenschätzung während Golf- und Baseball-Schwüngen vor.

2. Hintergrund

Die Komplexität von Golf- und Baseball-Schwüngen erfordert eine genaue Messung von Körperbewegungen. Vorhandene Posenschätzungsmethoden liefern möglicherweise nicht die erforderliche Genauigkeit für Echtzeit-Leistung. Fortschritte in Deep Learning und Computer Vision haben Modelle wie RTMPose und RTMDet eingeführt, die verbesserte Genauigkeit und Effizienz bieten.

3. Von-oben-nach-unten-Ansatz mit RTMdet und RTMpose

–insert figure–

3. RTMPose: Ein hochperformantes Posenschätzungsmodell

RTMPose [1] ist für hochperformante, Echtzeit-Posenschätzung konzipiert und optimiert, um effizient auf begrenzter Hardware zu laufen.

Hauptmerkmale:

Modellarchitektur und Effizienz: RTMpose nutzt CSPNeXt als Backbone [1, 2] und balanciert Geschwindigkeit und Genauigkeit. CSPNeXt ist für dichte Vorhersageaufgaben wie Posenschätzung und Objekterkennung optimiert und bietet hohe Auflösung und Präzision bei gleichzeitiger Beibehaltung computertechnischer Effizienz.

Schlüsselpunkt-Vorhersage: Nutzt einen SimCC-basierten Algorithmus [1, 3], bei dem die horizontalen und vertikalen Positionen von Schlüsselpunkten als separate Klassifizierungsaufgaben behandelt werden. Diese kompakte Darstellung reduziert die Rechenauslastung und eignet sich für die Bereitstellung auf verschiedenen Geräten.

4. RTMDet: Das Detektions-Backbone

RTMDet [4] dient als Detektor vor RTMPose in der Von-oben-nach-unten-Pipeline und identifiziert den Standort des Golfers oder Baseball-Spielers innerhalb jedes Bildes.

Hauptmerkmale:

Modellarchitektur und Effizienz: RTMDet nutzt eine modifizierte Version von CSPDarkNet [5], die trainierbarer und präziser als viele der YOLO-Modelle ist. Die modifizierte Version nutzt großformatige Tiefenkonvolutionen, um Komplexität und Geschwindigkeit auszubalancieren und ist effizient auf GPU und CPU. Sie ist ideal für Echtzeit-Anwendungen wie Sport-Leistungsverfolgung.

Vielseitigkeit: Verarbeitet verschiedene Objekterkennungsaufgaben, einschließlich Instanzsegmentierung und gedrehte Objekterkennung. Gewährleistet genaue Lokalisierung des Spielers, auch in dynamischen Szenen.

5. Vorteile der Verwendung von RTMDet und RTMPose in der Analyse von Golf- und Baseball-Schwüngen

5.1 Höhere Genauigkeit in unkomplexen Szenen

In typischen Golf-/Baseball-Einstellungen mit wenigen Personen im Bild isoliert RTMDet den Golfer/Baseball-Spieler, was RTMPose ermöglicht, jede erkannte Person mit hoher Genauigkeit zu verarbeiten. Dies vermeidet die Komplexität von Bottom-up-Methoden, die alle Schlüsselpunkte für alle Personen im Bild gleichzeitig verarbeiten. Der Von-oben-nach-unten-Ansatz kann auch einen Nachbearbeitungsalgorithmus von RTMdet enthalten, um die korrekte Person (z. B. Golfer oder Baseball-Spieler) zu identifizieren, bevor die Posenschätzung durchgeführt wird. Darüber hinaus wurde RTMPose auf erweitertes Bildmaterial trainiert, das

5.2 Effiziente Berechnung und Echtzeit-Leistung

Die Verwendung von leichtgewichtigen Modellen wie RTMdet und RTMpose erhält niedrige Latenz und ermöglicht Echtzeit-Schwunganalyse auf Consumer-Grade-Hardware. Dies ist besonders nützlich für sofortiges Live-Feedback während Trainings- oder Coachingsitzungen. Das Swing Catalyst-System für markerlose Motion Capture ist eines der wenigen Studio-Systeme, die Live-Motion-Capture-Feedback für Golfer und Baseball-Spieler bieten.

5.3 Detaillierte Schlüsselpunkt-Analyse

RTMPose erkennt einen Satz von 26 Körper-Ankerpunkten [6], die in Abbildung 1 unten angezeigt werden und für die Analyse der Kinematik von Golf- und Baseball-Schwüngen wesentlich sind. Halpe26 ist eine erweiterte Konfiguration, die zusätzliche Marker an den Füßen und dem Kopf im Vergleich zur standardmäßigeren COCO-Konfiguration mit 17 Markern umfasst.

–Insert Figure–

6. Methodik für markerlose Motion Capture bei Golf- und Baseball-Schwüngen

6.1 Erkennungsphase: RTMDet

Angewendet auf Video-Frames eines Golfers oder Baseball-Spielers erzeugt RTMDet Begrenzungsrahmen um den Spieler, die an RTMPose übergeben werden. Dies konzentriert die Posenschätzung auf relevante Bildbereiche und reduziert die Rechenauslastung.

–Insert Image–

6.2 Posenschätzungsphase: RTMPose

RTMPose schätzt Schlüsselpunkt-Positionen innerhalb des Begrenzungsrahmens. Kritische Gelenke für die Analyse von Golf- und Baseball-Schwüngen sind Handgelenke, Ellenbogen, Schultern, Hüften und Knie. Diese Schlüsselpunkte bewerten Körperwinkel und -positionen während der Phasen des Schwungs: Rückschwung, Abwärtsschwung und Durchschwung.

–Insert Image–

6.3 Leistungsmessgrößen

Die allgemeine Leistung von RTMPose wird mit Messgrößen wie Average Precision (AP) auf Posenschätzungs-Benchmarks wie MS COCO gemessen. Nachfolgend ist die Leistung der am besten bewerteten Modelle auf häufig verwendeten COCO-Benchmarks angegeben. Im MS COCO val-Dataset ist RTMPose-X das am besten abschneidende Modell, das Echtzeit-Feedback bieten kann und bis zu 75,8% AP mit Bildraten über ?? FPS auf Consumer-Grade-GPUs erreicht, was es für hochfrequente Sport-Analyse geeignet macht.

Rang Modell Auflösung Größe/Parameter (Mill) AP Echtzeit-Inferenz

1 Sapiens-2B 1024x768 2000 82,2 Nein

2 Sapiens-1B 1024x768 1000 82,1 Nein

3 Sapiens-0.6B 1024x768 600 81,2 Nein

4 Sapiens-0.3B 1024x768 300 79.6 Nein

5 VitPose-H 256x192 632 79.4 Nein

6 RTMPose-X 384x288 49 78.8 Ja

7 VitPose-L 256x192 307 78.6 Nein

8 RTMPose-L 384x288 28 78.3 Ja

9 HRFormer 256x192 43 77.2 Nein

10 HRNet-UDP 384x288 64 77.2 Ja

11 VitPose-B 256x192 86 77.0 Ja

12 RTMPose-L 256x198 28 76.7 Ja

13 RTMPose-M 384x288 14 76.6 Ja

14 HRNet 384x288 64 76.3 Ja

15 VitPose-S 256x192 43 75.8 Ja

16 RTMPose-M 256x192 14 74.9 Ja

17 SimpleBaseline 256x192 60 73.5 Ja

18 FastPose 256x192 79 73.3 Ja

7. Anwendung in der Golfschwung-Analyse

Durch die Anwendung des RTMPose-X- und RTMDet-M-Frameworks:

Gelenk-Bewegungen Bild für Bild verfolgen: Bietet umfassende Daten zur Analyse jeder Phase des Schwungs.

Echtzeitfeedback bereitstellen: Ermöglicht sofortige Einblicke in Körperhaltung und Form des Schwungs während Trainingseinheiten.

Mit idealer Mechanik vergleichen: Ermöglicht den Vergleich mit idealen Schwung-Kinematics, um Verbesserungsbereiche zu identifizieren.

8. Fazit

Die Integration von RTMPose-X und RTMDet-M bietet eine leistungsstarke Lösung für die Echtzeitanalyse von Golfschwüngen. Mit hoher Präzision, niedriger Latenz und Kompatibilität über verschiedene Hardware-Plattformen hinweg liefert dieser Von-oben-nach-unten-Ansatz detaillierte Einblicke in die Schwung-Mechanik. Er bietet großes Potenzial, um sowohl Amateure als auch professionelle Golfer bei der Verbesserung ihrer Leistung zu unterstützen.

9. Zukünftige Arbeiten

Zukünftige Entwicklungen könnten folgende Aspekte umfassen:

Integration von Machine-Learning-Algorithmen: Um Predictive Analytics bereitzustellen und Anpassungen zur Verbesserung der Schwung-Effizienz vorzuschlagen.

Erweiterung auf Multi-Person-Szenarien: Verbesserung der Anwendbarkeit in Teamsportarten oder Gruppentrainingsumgebungen.

Entwicklung einer benutzerfreundlichen Schnittstelle: Erstellung von Anwendungen oder Tools, die diese Technologie für Trainer und Athleten ohne technisches Fachwissen zugänglich machen.

Anhang

Detaillierte Methodologie: Von-oben-nach-unten-Ansatz zur Posenschätzung im Golfschwung mit RTMPose-X und RTMDet-M

Übersicht

Die hier beschriebene Methodologie erläutert die detaillierten Schritte eines Von-oben-nach-unten-Ansatzes für die Echtzeitposenschätzung eines Golf- und Baseballschwungs, der die Stärken von RTMPose zur Schlüsselpunkt-Lokalisierung und RTMDet zur Objekterkennung nutzt. Der Prozess ist in mehrere Stufen unterteilt: Erkennung, Schlüsselpunkt-Lokalisierung und Nachbearbeitung, von denen jede zur präzisen und effizienten Schätzung von Körpergelenken in einem Golfschwung für biomechanische Analysen beiträgt.

–Abbildung einfügen–

1. Erkennungsphase: Echtzeit-Lokalisierung mit RTMDet-M

Die erste Stufe des Von-oben-nach-unten-Ansatzes besteht darin, den Golfer in jedem Bild des Videos zu erkennen. In Sportszenarien, insbesondere Golf, besteht die Szene normalerweise aus einem einzelnen Spieler, was die Erkennungsaufgabe im Vergleich zu Menschenmengen vereinfacht.

1.1 Modellarchitektur

RTMDet-M wird als Objektdetektor in der Pipeline eingesetzt. Es nutzt ein Convolutional-Neural-Network-(CNN-)Backbone, speziell das CSPNeXt-Backbone, das entwickelt wurde, um die Echtzeit-Objekterkennungsleistung zu optimieren und ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu wahren. Zu den wichtigsten Aspekten der Architektur gehören:

Großkern-Tiefenkonvolutionen: Diese werden in den Backbone- und Neck-Schichten eingesetzt und vergrößern das receptive field bei gleichzeitig niedrigen Rechenkosten.

Feature-Pyramiden-Netzwerk (FPN): Eine Multi-Scale-Feature-Extraktionstechnik, die die Erkennung von Objekten in verschiedenen Skalen ermöglicht und sicherstellt, dass der Golfer unabhängig von seiner Entfernung von der Kamera erkannt werden kann.

1.2 Dynamische Labelzuweisung

RTMDet-M nutzt eine dynamische Labelzuweisungsstrategie, die die Erkennungsgenauigkeit verbessert, indem sie Soft Labels basierend auf einer Kombination von Klassifizierungs- und Lokalisierungsverlust zu Objekten zuweist. Die Labelzuweisung wird durch den SimOTA-Algorithmus gesteuert, der positive Proben dynamisch auf der Grundlage ihrer Wahrscheinlichkeit der Übereinstimmung mit dem Ground-Truth-Objekt auswählt. Diese Methode gewährleistet eine robuste Erkennung unter unterschiedlichen Lichtverhältnissen und Umweltbedingungen, die häufig in Outdoor-Golfszenen anzutreffen sind.

1.3 Begrenzungsrahmen-Vorhersage

Der Detektor gibt Begrenzungsrahmen aus, die den Golfer in jedem Bild einschließen. Diese Begrenzungsrahmen bieten räumliche Einschränkungen, innerhalb derer das Posenschätzungsmodell arbeitet, wodurch die rechnerische Belastung der nachfolgenden Posenschätzungsphase reduziert wird, indem der Fokus nur auf relevante Bereiche des Bildes gelegt wird. In diesem Zusammenhang erzeugt RTMDet-M Begrenzungsrahmen in Echtzeit mit über 300 FPS auf leistungsstarker Hardware und stellt sicher, dass es mit der schnellen Dynamik eines Golferschwungs Schritt halten kann.

1.4 Person Non-Maximum Suppression (NMS)

In Mehrpersonen-Szenarien (obwohl selten bei der Analyse von Golferschwüngen) integriert RTMDet-M einen Pose Non-Maximum Suppression (NMS)-Algorithmus, der redundante Schlüsselpunkt-Erkennungen eliminiert und sicherstellt, dass nur die zuverlässigsten Erkennungen für alle beibehalten werden. Dies ist entscheidend in Fällen, in denen überlappende Begrenzungsrahmen in vollen Szenen oder Videoabfolgen erkannt werden könnten.

1.5 Trainingsdataset und Leistung

Das RTMDet-M wird auf eine binäre Klassifizierungsaufgabe bei Personeninstanzen im Object356 Dataset trainiert.

2. Posenschätzungsphase: RTMPose-X Schlüsselpunkt-Lokalisierung

Nachdem der Begrenzungsrahmen für den Golfer etabliert wurde, besteht die nächste Phase darin, die genaue Position der wichtigsten Körpergelenke innerhalb dieser Region zu schätzen. RTMPose-X, ein hochperformantes Posenschätzungsmodell, wird zu diesem Zweck verwendet.

2.1 SimCC-basierte Schlüsselpunkt-Lokalisierung

RTMPose-X nutzt den SimCC-Algorithmus (Simple Coordinate Classification), der die Schlüsselpunkt-Lokalisierung als ein Klassifizierungsproblem behandelt. Im Gegensatz zu traditionellen heatmap-basierten Methoden unterteilt SimCC die x- und y-Koordinaten jedes Schlüsselpunkts in Bereiche und klassifiziert den genauen Bereich, in dem jeder Schlüsselpunkt liegt. Dieser Ansatz reduziert die rechnerische Komplexität erheblich und verbessert die Inferenzgeschwindigkeit, während hohe Genauigkeit für menschliche Posenschätzungsaufgaben beibehalten wird.

2.2 CSPNeXt Backbone

Ähnlich wie RTMDet-M nutzt auch RTMPose-X das CSPNeXt Backbone, das für dichte Vorhersageaufgaben wie Posenschätzung optimiert ist. Das CSPNeXt Backbone bietet in diesem Szenario folgende Vorteile:

Leichte Architektur: Die Architektur des Modells ist darauf ausgelegt, die Anzahl der Parameter zu minimieren und gleichzeitig den Durchsatz zu maximieren, was es ideal für Echtzeit-Anwendungen macht.

Effiziente Merkmalsextraktion: Die Merkmalsextraktionsschichten von CSPNeXt sind optimiert, um hochauflösende Bilder zu verarbeiten, was entscheidend ist, um kleine Details in schnell beweglichen Körperteilen während eines Golferschwungs wie Handgelenke, Ellenbogen und Knie zu erkennen.

2.3 Schlüsselpunkt-Darstellung

RTMPose-X gibt Schlüsselpunkt-Positionen für alle relevanten Körperteile aus, einschließlich:

Oberkörper-Gelenke: Schultern, Ellenbogen, Handgelenke und Nacken

Unterkörper-Gelenke: Hüften, Knie und Knöchel

Zusätzliche Gelenke: Kopf, Wirbelsäule und andere Schlüsselpunkte, die für die Schwunganalyse relevant sind

Die Auflösung von 384x288 für die Eingabebilder stellt sicher, dass selbst subtile Bewegungen in den Gelenken genau erfasst werden können, während gleichzeitig die Fähigkeit des Systems erhalten bleibt, in Echtzeit zu laufen.

2.4 RTMPose Vorverarbeitung: Unbiased Data Processing (UDP)

Bevor das zugeschnittene Bild in das RTMpose-Modell eingegeben wird, wird ein Unbiased Data Processing (UDP)-Schritt durchgeführt. UDP adressiert kritische Verzerrungen in der Datenverarbeitung von RTMpose während Training und Testing, speziell bei Koordinatensystem- und Schlüsselpunkt-Format-Transformationen. In konventionellen menschlichen Posenschätzungs-Pipelines führen Standard-Operationen wie Spiegeln und Vergrößern oft zu Fehlausrichtungen in Ausgaben, insbesondere aufgrund von pixelbasierten Transformationen, die zu Genauigkeitsverlust und Nichtausrichtung gespiegelter Bilder führen. UDP korrigiert diese, indem es eine unverzerrte Koordinatensystemtransformation etabliert und die semantische Ausrichtung über verschiedene Koordinatenräume hinweg während wesentlicher Operationen (Zuschneiden, Vergrößern, Drehen, Spiegeln) bewahrt. UDP führt auch unverzerrte Schlüsselpunkt-Format-Transformation durch Kodierung von Schlüsselpunkten in Wärmekarten ohne Positionsverzerrung ein, die durch einen Gaussian-Verteilungs-bewussten Dekodierungsprozess weiter verfeinert wird. Dieser Datenverarbeitungsansatz verbessert die Modellleistung systematisch, wie extensive Tests auf COCO und CrowdPose Datasets zeigen, wo er verbesserte Genauigkeit und reduzierte Inferenzlatenz über top-down und bottom-up Modelle hinweg erreichte [Ref].

3. Nachbearbeitung und Poseverfeinerung

Nachdem die Schlüsselpunkte vorhergesagt wurden, werden mehrere Nachbearbeitungsschritte angewendet, um die Posenschätzung zu verfeinern und die Stabilität über Frames hinweg zu gewährleisten.

3.1 Pose-Glättung

Golferschwünge beinhalten schnelle Bewegungen, die Rauschen oder Schwankungen in den geschätzten Schlüsselpunkt-Positionen über Frames einführen können. Um dies zu mildern, wird ein One-Euro Filter angewendet, um die Schlüsselpunkt-Trajektorien zeitlich zu glätten und sicherzustellen, dass kleine, nicht-physikalische Schwankungen in den Schlüsselpunkt-Vorhersagen eliminiert werden. Der One-Euro Filter funktioniert, indem er die Bandbreite des Filters dynamisch basierend auf der Bewegungsgeschwindigkeit anpasst, was ideal für Szenarien wie Golferschwünge ist, wo die Bewegung in verschiedenen Phasen (Rückschwung, Abwärtsschwung und Durchschwung) erheblich in der Geschwindigkeit variiert.

3.2 Frame-Skip-Mechanismus

Für weitere Optimierung wird ein Frame-Skip-Mechanismus implementiert, wobei die Erkennung nur auf Keyframes durchgeführt wird und die Posenschätzung für Zwischenframes interpoliert wird. Dies reduziert die rechnerische Belastung drastisch, ohne die Genauigkeit in Szenarien mit begrenzter Bewegung zwischen Frames zu beeinträchtigen, wie z. B. Zeitlupen-Analyse eines Golferschwungs.

4. Zeitliche Verfolgung und Abfolge-Konsistenz

Da Golferschwünge von Natur aus sequenziell sind, ist die Beibehaltung zeitlicher Konsistenz in der Posenschätzung vital. RTMPose-X adressiert dies durch zeitliche Verfolgungstechniken, die sicherstellen, dass die Schlüsselpunkt-Vorhersagen über aufeinanderfolgende Frames hinweg konsistent sind. Dies umfasst die Verfolgung von Schlüsselpunkt-Positionen über die Zeit und die Sicherung, dass ihre Trajektorien realistische Bewegungsmuster basierend auf biomechanischen Einschränkungen folgen.

4.1 Schlüsselpunkt-Geschwindigkeit und Beschleunigung-Analyse

Zusätzlich zur Verfolgung von Schlüsselpunkt-Positionen schätzt RTMPose-X auch die Geschwindigkeit und Beschleunigung jedes Schlüsselpunkts. Diese Informationen sind entscheidend für die Analyse der Dynamik eines Golferschwungs und bieten Einblick in Schlüssel-Leistungsmessgrößen wie:

Schwunggeschwindigkeit: Berechnet basierend auf Handgelenk-Geschwindigkeit während des Abwärtsschwungs.

Hüftrotation: Analysiert durch die Rotationsgeschwindigkeit der Hüftgelenke.

Schlägerweg und Kopfgeschwindigkeit: Indirekt aus Handgelenk- und Ellenbogen-Trajektorien hergeleitet.

Diese Messgrößen können mit professionellen Benchmarks verglichen werden, um Feedback zur Schwung-Mechanik eines Spielers zu bieten.

5. Inferenz und Echtzeit-Leistung

Die gesamte von-oben-nach-unten-Ansatz-Pipeline ist für Echtzeit-Leistung optimiert und ermöglicht Posenschätzung mit über 90 FPS auf modernen GPUs. Die Verwendung hocheffizienter Modellarchitekturen (CSPNeXt) und schneller Inferenztechniken (SimCC) stellt sicher, dass das System hochfrequenzige Videoeingabe verarbeiten kann, was es für Echtzeit-Feedback während Trainingssitzungen geeignet macht.

6. Bewertung und Validierung

Die RTMPose-X und RTMDet-M Modelle werden auf Standard-Datasets wie COCO und MPII bewertet und zeigen starke Leistung mit einer durchschnittlichen Präzision (AP) von 75,8% auf dem COCO Dataset für Körper-Schlüsselpunkte. Diese Ergebnisse werden gegen Ground-Truth-Annotationen in Golferschwung-Datasets validiert und stellen die Robustheit des Modells beim Erfassen dynamischer Sportbewegungen sicher.

6.1 Leistungsmessgrößen

Mean Squared Error (MSE): Wird verwendet, um die Genauigkeit von Schlüsselpunkt-Vorhersagen gegen Ground-Truth-Annotationen zu quantifizieren.

Average Precision (AP): Bewertet die Gesamtleistung des Posenschätzungsmodells.

Bildverarbeitungszeit: Gemessen, um sicherzustellen, dass das System Echtzeitanforderungen erfüllt (<10 ms pro Bild).

7. Fazit

Der Von-oben-nach-unten-Ansatz mit RTMPose-X und RTMDet-M bietet eine effiziente und genaue Methode für die Echtzeit-Posenschätzung in der Sportanalytik, insbesondere für die Analyse von Golfschlägen. Mit robuster Schlüsselpunkt-Erkennung, temporalem Tracking und Echtzeit-Inferenz bietet diese Methodik detaillierte biomechanische Einblicke in die Golfschlag-Dynamik und unterstützt die Leistungsverbesserung und Verletzungsprävention.

Referenzen

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI-Challenge-Dataset:

[] MS COCO Dataset:

[7] Crowdpose Dataset: https://arxiv.org/pdf/1812.00324

[] MPII Dataset:

[] sub-JHMBD Dataset: