Forbedring af golfsving og baseball-sving markørløs bevægelsesfangst ved hjælp af RTMPose og RTMDet: En top-down-metode

Forbedring af golfsving og baseball-sving markørløs bevægelsesfangst ved hjælp af RTMPose og RTMDet: En top-down-metode

Resumé

Denne hvidbog dokumenterer anvendelsen af RTMPose og RTMDet til nøjagtig og effektiv holdningsestimering af golf- og baseball-sving. Ved at udnytte banebrydende teknikker optimeret til realtidsydelse muliggør disse modeller detaljeret sporing af kropsbevægelser under golf- og baseball-sving – en kritisk funktion for at forbedre præstationen inden for sportanalyse. Vi fremhæver fordelene ved en top-down-metode, hvor en RTMDet-detektor af standard-art identificerer golfspilleren og baseball-spilleren i hver ramme, og RTMPose estimerer positionerne af vigtige kropsnøglepunkter.

1. Introduktion

Holdningsestimering er blevet afgørende inden for sportspræstationsanalyse og muliggør præcis sporing af atleters bevægelser. I golf og baseball giver indfangelse af biomekaniske data fra en spillers sving værdifuld indsigt i svingdynamik, hvilket hjælper fagfolk og amatører med at raffinere deres teknikker. Traditionelle 2D-holdningsestimeringsmetoder står ofte over for latens- og nøjagtighedsproblemer, især i realtidsscenarier. Denne artikel foreslår en løsning ved hjælp af RTMPose og RTMDet inden for mmpose Framework til detaljeret holdningsestimering under golf- og baseball-sving.

2. Baggrund

Kompleksiteten ved golf- og baseball-sving kræver præcis måling af kropsbevægelser. Eksisterende holdningsestimeringsmetoder giver muligvis ikke den nødvendige nøjagtighed til realtidsydelse. Fremskridt inden for dyb læring og computersyn har introduceret modeller som RTMPose og RTMDet, som tilbyder forbedret nøjagtighed og effektivitet.

3. Top-down-metode med RTMdet og RTMpose

–insert figure–

3. RTMPose: En højperformance holdningsestimeringsmodel

RTMPose [1] er designet til højperformance, realtids holdningsestimering, optimeret til at køre effektivt på begrænset hardware.

Vigtige funktioner:

Modelarkitektur og effektivitet: RTMpose udnytter CSPNeXt som sin backbone [1, 2], der balancerer hastighed og nøjagtighed. CSPNeXt er optimeret til tætte forudsigelsesopgaver som holdningsestimering og objektdetektion, hvilket giver høj opløsning og præcision samtidig med at bevare beregningseffektivitet.

Nøglepunktforudsigelse: Anvender en SimCC-baseret algoritme [1, 3], der behandler vandrette og lodrette positioner af nøglepunkter som separate klassificeringsopgaver. Denne kompakte repræsentation reducerer beregningsbyrden og egner sig til implementering på forskellige enheder.

4. RTMDet: Detektions-backbonen

RTMDet [4] fungerer som detektoren forud for RTMPose i top-down-pipeline’en og identificerer golfspillerens eller baseball-spillerens placering inden for hver ramme.

Vigtige funktioner:

Modelarkitektur og effektivitet: RTMDet anvender en modificeret version af CSPDarkNet [5], der er mere træneligt og præcist end mange af YOLO-modellerne. Den modificerede version udnytter store-kernel dybdekloninvolutioner til at balancere kompleksitet og hastighed og er effektiv på både GPU og CPU. Det er ideelt til realtidsapplikationer som sportspræstationssporing.

Alsidighed: Håndterer forskellige objektdetektionsopgaver, herunder instanssegmentering og roteret objektdetektion. Sikrer præcis lokalisering af spilleren, selv i dynamiske scener.

5. Fordele ved at bruge RTMDet og RTMPose i golf- og baseball-svinganalyse

5.1 Højere nøjagtighed i ikke-overbefolkede scener

I typiske golf/baseball-indstillinger med få individer i rammen isolerer RTMDet golfspilleren/baseball-spilleren, hvilket tillader RTMPose at behandle hver detekteret person med høj nøjagtighed. Dette undgår kompleksiteten af bottom-up-metoder, der behandler alle nøglepunkter for alle personer i rammen samtidigt. Top-down-metoden kan også inkludere post-processing-algoritmen fra RTMdet, der identificerer den rigtige person (dvs. golfspiller eller baseball-spiller) før holdningsestimering udføres. Desuden er RTMPose forudtrænet på udvidet billedmateriale indeholdende

5.2 Effektiv beregning og realtidsydelse

Ved at bruge lette modeller, som RTMdet og RTMpose, opretholdes lav latens, hvilket muliggør realtids-svinganalyse på forbrugerkvalitet-hardware. Dette er særligt nyttigt til at give øjeblikkelig live-feedback under coaching eller træningssessioner. Swing Catalyst markørløs bevægelsesfangst-system er et af få studio-systemer, der giver live bevægelsesfangst-feedback til golfspillere og baseball-spillere.

5.3 Detaljeret nøglepunktanalyse

RTMPose detekterer en opsætning med 26 kropsnøglepunkter [6] vist i figur 1 nedenfor, der er vigtige for analyse af golf- og baseball-sving-kinematik. Halpe26 er en udvidet opsætning, der inkluderer yderligere markører på fødderne og hovedet sammenlignet med den mere standard Coco-opsætning med 17 markører.

–Insert Figure–

6. Metodologi for golf- og baseball-sving markørløs bevægelsesfangst

6.1 Detektionsfase: RTMDet

Anvendt på videoramme af en golfspiller eller baseball-spiller genererer RTMDet grænsebokse omkring spilleren, som overføres til RTMPose. Dette fokuserer holdningsestimeringen på relevante billedregioner og reducerer beregningsbyrden.

–Insert Image–

6.2 Holdningsestimeringsfase: RTMPose

RTMPose estimerer nøglepunktpositioner inden for grænseboksen. Kritiske led til golf- og baseball-svinganalyse omfatter håndleder, albuer, skuldrer, hofter og knæ. Disse nøglepunkter vurderer kropsvinkler og positioner under svingets faser: bagsving, nedslag og opfølging.

–Insert Image–

6.3 Ydelsesvejledninger

Den generelle præstation af RTMPose måles ved hjælp af metrikker som Average Precision (AP) på holdningsestimeringsmærker som MS COCO. Nedenfor er præstationen af de bedst rangerede modeller på almindeligt brugte Coco-benchmarks. På MS COCO val-datasættet er RTMPose-X den bedst fungerende model, der kan give realtids-feedback og opnår op til 75,8% AP med billedfrekvenser over ?? FPS på forbrugerkvalitet-GPUer, hvilket gør den velegnet til højhastighedsportanalyse.

Rang Model Opløsning Størrelse/parametre (mill.) AP Realtids inferens

1 Sapiens-2B 1024x768 2000 82,2 Nej

2 Sapiens-1B 1024x768 1000 82,1 Nej

3 Sapiens-0.6B 1024x768 600 81,2 Nej

4 Sapiens-0.3B 1024x768 300 79.6 Nej

5 VitPose-H 256x192 632 79.4 Nej

6 RTMPose-X 384x288 49 78.8 Ja

7 VitPose-L 256x192 307 78.6 Nej

8 RTMPose-L 384x288 28 78.3 Ja

9 HRFormer 256x192 43 77.2 Nej

10 HRNet-UDP 384x288 64 77.2 Ja

11 VitPose-B 256x192 86 77.0 Ja

12 RTMPose-L 256x198 28 76.7 Ja

13 RTMPose-M 384x288 14 76.6 Ja

14 HRNet 384x288 64 76.3 Ja

15 VitPose-S 256x192 43 75.8 Ja

16 RTMPose-M 256x192 14 74.9 Ja

17 SimpleBaseline 256x192 60 73.5 Ja

18 FastPose 256x192 79 73.3 Ja

7. Anvendelse i Golf Swing-analyse

Ved at anvende RTMPose-X og RTMDet-M framework:

Spor ledejævelser frame-for-frame: Giver omfattende data til analyse af hver fase af svinget.

Giv realtidsfeedback: Muliggør umiddelbar indsigt i sving-holdning og form under træningssessioner.

Sammenlign med ideal mekanik: Tillader sammenligning med ideal swing kinematik for at identificere forbedringspotentialer.

8. Konklusion

Integrationen af RTMPose-X og RTMDet-M tilbyder en kraftfuld løsning til realtids golf swing-analyse. Med høj præcision, lav latens og kompatibilitet på tværs af forskellige hardwareplatforme, leverer denne top-down-metode detaljeret indsigt i swing-mekanik. Den har stort potentiale til at hjælpe både amatør- og professionelle golfspillere med at forbedre deres præstation.

9. Fremtidigt arbejde

Fremtidige udvikling kunne omfatte:

Integration af maskinlæringsalgoritmer: For at give forudsigelig analyse og foreslå justeringer til forbedring af swing-effektivitet.

Udvidelse til multi-person scenarier: Forbedring af anvendelighed i holdspil eller gruppetrænings-miljøer.

Udvikling af brugervenligt interface: Skabelse af applikationer eller værktøjer, der gør denne teknologi tilgængelig for trænere og atleter uden teknisk ekspertise.

Appendiks

Detaljeret metodologi: Top-down-metode til golf swing holdningsestimering ved hjælp af RTMPose-X og RTMDet-M

Oversigt

Metodologien beskrevet her skitserer de detaljerede trin, der er involveret i en top-down-metode til realtids holdningsestimering af et golf- og baseball swing, der udnytter styrkerne i RTMPose til nøglepunkt-lokalisering og RTMDet til objektdetektion. Processen er opdelt i flere stadier: detektion, nøglepunkt-lokalisering og efterbehandling, der hver bidrager til præcis og effektiv estimering af kropsleder i et golf swing til biomekanisk analyse.

–Indsæt figur–

1. Detektionsfase: Realtids-lokalisering med RTMDet-M

Det første trin i top-down-metoden involverer detektering af golfspilleren inden for hver frame af videoen. I sports-scenarier, især golf, består scenen normalt af en enkelt spiller, hvilket forenkler detektion-opgaven sammenlignet med folkemængde-scenarier.

1.1 Model-arkitektur

RTMDet-M bruges som objektdetektor i pipeline’en. Den bruger et convolutional neural network (CNN) backbone, specifikt CSPNeXt backbone’en, designet til at optimere realtids objektdetektion-præstation og samtidig bevare en balance mellem hastighed og nøjagtighed. Nøgleelementer i arkitekturen omfatter:

Large-kernel depth-wise convolutions: Disse bruges i backbone og neck lag, hvilket øger det receptive felt mens der bevares lave beregningsomkostninger.

Feature pyramid network (FPN): En multi-scale feature extraction-teknik, der muliggør detektion af objekter på forskellige skalaer, hvilket sikrer, at golfspilleren kan detekteres uanset deres afstand fra kameraet.

1.2 Dynamisk etiket-tildeling

RTMDet-M udnytter en dynamisk etiket-tildelings-strategi, der forbedrer detektions-nøjagtighed ved at tildele soft labels til objekter baseret på en kombination af klassifikations- og lokaliserings-tab. Etiket-tildelingen er styret af SimOTA-algoritmen, som dynamisk udvælger positive prøver baseret på deres sandsynlighed for at matche ground truth objektet. Denne metode sikrer robust detektion under varierende lys- og miljøforhold, der ofte opstår i outdoor golf-scenarier.

1.3 Grænseboks-forudsigelse

Detektoren udsender grænsebokse, der omslutter golfspilleren i hver frame. Disse grænsebokse giver rumlige begrænsninger, inden for hvilke holdningsestimerings-modellen vil fungere, hvilket reducerer beregningsbelastningen på den efterfølgende holdningsestimerings-fase ved at fokusere kun på relevante områder af framen. I denne sammenhæng genererer RTMDet-M grænsebokse i realtid med over 300 FPS på højtydende hardware, hvilket sikrer, at systemet kan følge med den hurtige dynamik i en golfswing.

1.4 Non-Maximum Suppression (NMS) for personer

I multi-person-indstillinger (selvom sjælden i golfswing-analyse) inkorporerer RTMDet-M en Non-Maximum Suppression (NMS)-algoritme for holdning, der eliminerer redundante nøglepunkt-detektioner og sikrer, at kun de mest pålidelige detektioner beholdes for alle personer. Dette er afgørende i tilfælde, hvor overlappende grænsebokse kan blive detekteret i tæt befolkede scener eller videosekvenser.

1.5 Træningsdata-sæt og præstation

RTMDet-M er trænet på en binær klassificeringsopgave på person-instanser i Object356-datasættet.

2. Holdningsestimerings-fase: RTMPose-X nøglepunkt-lokalisering

Når grænseboksen for golfspilleren er blevet etableret, involverer næste fase estimering af den præcise placering af vigtige kropsled inden for denne region. RTMPose-X, en højtydende holdningsestimerings-model, bruges til dette formål.

2.1 SimCC-baseret nøglepunkt-lokalisering

RTMPose-X anvender SimCC (Simple Coordinate Classification)-algoritmen, som behandler nøglepunkt-lokalisering som et klassifikationsproblem. I modsætning til traditionelle varmekort-baserede metoder opdeler SimCC x- og y-koordinaterne for hvert nøglepunkt i hylder og klassificerer den nøjagtige hyld, hvor hvert nøglepunkt ligger. Denne tilgang reducerer beregningsmæssig kompleksitet betydeligt og forbedrer inferensspeeden, samtidig med at høj nøjagtighed opretholdes for menneskeligt holdningsestimerings-opgaver.

2.2 CSPNeXt-rygrad

Ligesom RTMDet-M bruger RTMPose-X også CSPNeXt-ryggraden, som er skræddersyet til tæt prognose-opgaver såsom holdningsestimering. CSPNeXt-ryggraden er fordelagtig i dette scenarie af følgende årsager:

Let arkitektur: Modellens arkitektur er designet til at minimere antallet af parametre, samtidig med at gennemstrømningen maksimeres, hvilket gør den ideel til real-time-applikationer.

Effektiv funktionsudtræk: CSPNeXt’s funktionsudtræks-lag er optimeret til at behandle billeder i høj opløsning, hvilket er afgørende for at detektere små detaljer i hurtigtbevægende kropsdelene under en golfswing, såsom håndled, albuer og knæ.

2.3 Nøglepunkt-repræsentation

RTMPose-X udsender nøglepunkt-placeringer for alle relevante kropsdelene, herunder:

Øvre kropsled: skuldrer, albuer, håndled og nakke

Nedre kropsled: hofter, knæ og ankler

Yderligere led: hoved, rygsøjle og andre nøglepunkter, der er relevante til swing-analyse

Opløsningen på 384x288 for inputbillederne sikrer, at selv subtile bevægelser i lederne kan fanges nøjagtigt, samtidig med at systemets evne til at køre i realtid bibeholdes.

2.4 RTMPose-forbehandling: Upartisk databehandling (UDP)

Før det beskårne billede føres ind i RTMPose-modellen, udføres et Upartisk databehandlings (UDP)-trin. UDP adresserer kritiske bias i RTMPose’s databehandling under træning og test, specifikt i koordinatsystem- og nøglepunkt-format-transformationer. I konventionelle holdningsestimerings-pipelines fører standardoperationer såsom vending og ændring af størrelse ofte til fejljustering af output, især på grund af pixel-baserede transformationer, som fører til præcisionstab og ikke-justering af vendte billeder. UDP korrigerer disse ved at etablere en upartisk koordinatsystem-transformation, der bevarer semantisk justering på tværs af forskellige koordinatrum under væsentlige operationer (beskæring, størrelses-ændring, rotation, vending). UDP introducerer også upartisk nøglepunkt-format-transformation ved at kodere nøglepunkter til varmekort uden at introducere positions-bias, yderligere raffineret gennem en Gaussian-distribuerings-opmærksom afkodningsproces. Denne databehandlings-tilgang forbedrer systematisk model-præstationen, som vist i omfattende tests på COCO- og CrowdPose-datasætter, hvor det opnåede øget nøjagtighed og reduceret inferens-latens på tværs af top-down- og bottom-up-modeller [Ref].

3. Efterbehandling og holdnings-raffinement

Når nøglepunkterne er forudsagt, anvendes flere efterbehandlings-trin for at raffinere holdningsestimeringen og sikre stabilitet på tværs af frames.

3.1 Holdnings-udjævning

Golfswings involverer hurtig bevægelse, som kan introducere støj eller udsving i de estimerede nøglepunkt-positioner på tværs af frames. For at mindske dette anvendes et One-Euro Filter til at udjævne nøglepunkt-trajektorierne over tid, hvilket sikrer, at små, ikke-fysiske udsving i nøglepunkt-forudsigelserne elimineres. One-Euro Filteret fungerer ved at justere filterets båndbredde dynamisk baseret på bevægelseshastigheden, som er ideel til scenarier som golfswings, hvor bevægelsen varierer betydeligt i hastighed på tværs af forskellige faser (bagsving, nedslag og opfølging).

3.2 Frame-skip-mekanisme

For yderligere optimering implementeres en frame-skip-mekanisme, hvor detektion udføres kun på nøgleframes, og holdningsestimering interpoleres for mellemliggende frames. Dette reducerer beregningsbelastningen drastisk uden at ofre nøjagtighed i scenarier med begrænset bevægelse mellem frames, såsom slowmotion-analyse af en golfswing.

4. Temporal tracking og sekvens-konsistens

Da golfswings er iboende sekventielle, er det vitalt at opretholde temporal konsistens i holdningsestimeringen. RTMPose-X adresserer dette gennem temporal tracking-teknikker, som sikrer, at nøglepunkt-forudsigelserne er konsistente på tværs af på hinanden følgende frames. Dette involverer tracking af nøglepunkt-positioner over tid og sikring af, at deres trajektorier følger realistiske bevægelsesmønstre baseret på biomekhaniske begrænsninger.

4.1 Nøglepunkt-hastighed og acceleration-analyse

Ud over tracking af nøglepunkt-positioner estimerer RTMPose-X også hastighed og acceleration af hvert nøglepunkt. Denne information er afgørende for at analysere dynamikken i en golfswing, hvilket giver indsigt i vigtige præstations-metrikker såsom:

Svinghastighed: Beregnet baseret på håndled-hastighed under nedslaget.

Hofterotation: Analyseret gennem rotationshastigheden af hofteleddet.

Køllestimulering og hoved-hastighed: Udledt indirekte fra håndled- og albue-trajektorier.

Disse metrikker kan sammenlignes med professionelle benchmarks for at give feedback på en spillers swing-mekanik.

5. Inferens og real-time-præstation

Hele top-down-pipelinen er optimeret til real-time-præstation, hvilket tillader holdningsestimering på over 90 FPS på moderne GPUer. Brugen af meget effektive model-arkitekturer (CSPNeXt) og hurtige inferens-teknikker (SimCC) sikrer, at systemet kan håndtere video-input med høj billedfrekvens, hvilket gør det egnet til real-time-feedback under træningssessioner.

6. Evaluering og validering

RTMPose-X og RTMDet-M-modellerne evalueres på standard datasætter såsom COCO og MPII, hvilket viser stærk præstation med en gennemsnitlig præcision (AP) på 75,8% på COCO-datasættet for krops-nøglepunkter. Disse resultater valideres mod ground-truth-annotationer i golfswing-datasætter, hvilket sikrer robustheden af modellen til at fange dynamiske sports-bevægelser.

6.1 Præstationsmetrikker

Mean Squared Error (MSE): Bruges til at kvantificere nøjagtigheden af nøglepunktforudsigelser mod sandhedsannotationer.

Average Precision (AP): Evaluerer den overordnede præstation af holdningsestimerings modellen.

Framebehandlingstid: Benchmarked for at sikre, at systemet opfylder realtidskrav (<10 ms pr. frame).

7. Konklusion

Top-down-metoden ved brug af RTMPose-X og RTMDet-M giver en effektiv og præcis metode til realtids holdningsestimering inden for sportsanalytics, specielt til golfswing-analyse. Med robust nøglepunktdetektion, temporal tracking og realtids inferens tilbyder denne metodologi detaljerede biomekaniske indsigter i golfswing-dynamik, hvilket hjælper med præstationsforbedring og skadesprediction.

Referencer

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI challenge dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset: