Förbättra markerlös rörelseuppsamling för golf- och baseballswing med RTMPose och RTMDet: En uppifrånmetod

Förbättra markerlös rörelseuppsamling för golf- och baseballswing med RTMPose och RTMDet: En uppifrånmetod

Sammanfattning

Denna whitepaper dokumenterar tillämpningen av RTMPose och RTMDet för noggrann och effektiv skattning av kroppshållning vid golf- och baseballswing. Genom att utnyttja state-of-the-art-tekniker optimerade för prestation i realtid möjliggör dessa modeller detaljerad spårning av kroppsrörelser under golf- och baseballswing—en kritisk funktion för att förbättra prestationen inom sportanalytik. Vi belyser fördelarna med en uppifrånmetod, där en färdig RTMDet-detektor identifierar golfaren och baseballspelaren i varje bildruta, och RTMPose uppskattar positionerna för nyckelkroppsled.

1. Introduktion

Skattning av kroppshållning har blivit avgörande inom sportprestandanalys, vilket möjliggör exakt spårning av idrottares rörelser. Inom golf och baseball ger insamlingen av biomekanska data från en spelares swing värdefulla insikter i svingdynamiken, vilket hjälper både proffs och amatörer att förfina sina tekniker. Traditionella 2D-metoder för skattning av kroppshållning står ofta inför fördröjnings- och noggrannhetsproblem, särskilt i realtidsscenarier. Den här artikeln föreslår en lösning med RTMPose och RTMDet inom mmpose Framework för detaljerad skattning av kroppshållning under golf- och baseballswing.

2. Bakgrund

Komplexiteten i golf- och baseballswing kräver exakt mätning av kroppsrörelser. Befintliga metoder för skattning av kroppshållning kanske inte ger den noggrannhet som krävs för prestation i realtid. Framsteg inom djup inlärning och datorsyn har introducerat modeller som RTMPose och RTMDet, som erbjuder förbättrad noggrannhet och effektivitet.

3. Uppifrånmetod med RTMdet och RTMpose

–insert figure–

3. RTMPose: En högtpresterande modell för skattning av kroppshållning

RTMPose [1] är utformad för högpresterande skattning av kroppshållning i realtid, optimerad för effektiv körning på begränsad hårdvara.

Viktiga funktioner:

Modellarkitektur och effektivitet: RTMpose använder CSPNeXt som backbone [1, 2], vilket balanserar hastighet och noggrannhet. CSPNeXt är optimerad för tätprediktionsuppgifter som skattning av kroppshållning och objektdetektering, vilket ger hög upplösning och precision samtidigt som beräkningseffektiviteten bibehålls.

Nyckelriktningsprediktion: Använder en SimCC-baserad algoritm [1, 3] som behandlar de horisontella och vertikala positionerna för nyckelriktningar som separata klassificeringsuppgifter. Denna kompakta representation minskar beräkningsbelastningen och lämpar sig för distribution på olika enheter.

4. RTMDet: Detektionsbackbone

RTMDet [4] fungerar som detektorn före RTMPose i uppifrånpipelinen, och identifierar golarens eller baseballspelarens placering inom varje bildruta.

Viktiga funktioner:

Modellarkitektur och effektivitet: RTMDet använder en modifierad version av CSPDarkNet [5] som är mer träningsbar och exakt än många YOLO-modeller. Den modifierade versionen utnyttjar djupvisa faltningar med stor kärna för att balansera komplexitet och hastighet och är effektiv på både GPU och CPU. Den är idealisk för realtidstillämpningar som spårning av sportprestation.

Mångsidighet: Hanterar olika objektdetekteringsuppgifter, inklusive instanssegmentering och roterad objektdetektering. Säkerställer exakt lokalisering av spelaren, även i dynamiska scener.

5. Fördelar med att använda RTMDet och RTMPose vid analys av golf- och baseballswing

5.1 Högre noggrannhet i trängselfreie scener

I typiska golf-/baseballmiljöer med få personer i bildrutan isolerar RTMDet golfaren/baseballspelaren, vilket tillåter RTMPose att bearbeta varje detekterad person med hög noggrannhet. Detta undviker komplexiteten i bottom-up-metoder som bearbetar alla nyckelriktningar för alla personer i bildrutan samtidigt. Uppifrånmetoden kan också inkludera RTMdets efterbehandlingsalgoritm för att identifiera rätt person (dvs. golfare eller baseballspelare) innan kroppshållningsestimering utförs. Dessutom har RTMPose förtränad på utökat bildmaterial innehållande

5.2 Effektiv beräkning och prestation i realtid

Genom att använda lätta modeller som RTMdet och RTMpose bibehålls låg latens, vilket möjliggör svinganalys i realtid på konsumenthårdvara. Detta är särskilt användbart för att ge omedelbar live-feedback under coaching eller träningssessioner. SwingCatalyst markerlösa rörelseuppsamlingssystem är ett av få studiösystem som ger live-rörelseuppsamlingsfeedback till golfare och baseballspelare.

5.3 Detaljerad nyckelriktningsanalys

RTMPose detekterar en uppsättning på 26 kroppsnyckelriktningar [6] som visas i figur 1 nedan, väsentliga för analys av golf- och baseballswing-kinematik. Halpe26 är en utökad uppsättning som inkluderar ytterligare markörer på fötterna och huvudet jämfört med den mer standardiserade Coco-uppsättningen med 17 markörer.

–Insert Figure–

6. Metod för markerlös rörelseuppsamling vid golf- och baseballswing

6.1 Detektionsfas: RTMDet

RTMDet tillämpas på videobildrror av en golfare eller baseballspelare och genererar avgränsningsramar runt spelaren, som skickas till RTMPose. Detta fokuserar kroppshållningsestimeringen på relevanta bildregioner, vilket minskar beräkningsbelastningen.

–Insert Image–

6.2 Kroppshållningsestimeringsfas: RTMPose

RTMPose uppskattar nyckelriktningspositioner inom avgränsningsramen. Kritiska leder för golf- och baseballswing-analys inkluderar handleder, armbågar, axlar, höfter och knän. Dessa nyckelriktningar bedömer kroppsvinklar och positioner under svingens faser: bakåtsvång, nedåtsvingen och follow-through.

–Insert Image–

6.3 Prestationsmätetal

Den allmänna prestationen för RTMPose mäts med mätetal som genomsnittlig precision (AP) på kroppshållningsestimeringsbenchmark som MS COCO. Nedan är prestationen för de högst rankade modellerna på vanliga Coco-benchmark. På MS COCO val-datasetet är RTMPose-X den bäst presterande modellen som kan ge realtidsfeedback och uppnår upp till 75,8% AP med bildhastigheter som överskrider ?? FPS på GPU:er för konsumenter, vilket gör den lämplig för höghastig sportanalys.

Rank Modell Upplösning Storlek/parametrar (Milj) AP Realtidsslutledning

1 Sapiens-2B 1024x768 2000 82,2 Nej

2 Sapiens-1B 1024x768 1000 82,1 Nej

3 Sapiens-0,6B 1024x768 600 81,2 Nej

4 Sapiens-0.3B 1024x768 300 79.6 Nej

5 VitPose-H 256x192 632 79.4 Nej

6 RTMPose-X 384x288 49 78.8 Ja

7 VitPose-L 256x192 307 78.6 Nej

8 RTMPose-L 384x288 28 78.3 Ja

9 HRFormer 256x192 43 77.2 Nej

10 HRNet-UDP 384x288 64 77.2 Ja

11 VitPose-B 256x192 86 77.0 Ja

12 RTMPose-L 256x198 28 76.7 Ja

13 RTMPose-M 384x288 14 76.6 Ja

14 HRNet 384x288 64 76.3 Ja

15 VitPose-S 256x192 43 75.8 Ja

16 RTMPose-M 256x192 14 74.9 Ja

17 SimpleBaseline 256x192 60 73.5 Ja

18 FastPose 256x192 79 73.3 Ja

7. Tillämpning inom golfsvingsanalys

Genom att tillämpa RTMPose-X och RTMDet-M-ramverket:

Spåra Ledförflyttningar Bildruta för Bildruta: Tillhandahåller omfattande data för analys av varje fas i svingen.

Ge Feedback i Realtid: Möjliggör omedelbar insikt i svingens kroppshållning och form under träningssessioner.

Jämför med Ideal Mekanik: Möjliggör jämförelse mot ideal svingkinematik för att identifiera förbättringsområden.

8. Slutsats

Integrationen av RTMPose-X och RTMDet-M erbjuder en kraftfull lösning för golfsvingsanalys i realtid. Med högt precision, låg latens och kompatibilitet över olika hårdvaruplattformar levererar denna uppifrånmetod detaljerade insikter i svingmekanik. Den har betydande potential att hjälpa både amatörgolfare och professionella golfare att förbättra sin prestation.

9. Framtida arbete

Framtida utvecklingar kan omfatta:

Integrering av Maskininlärningsalgoritmer: För att tillhandahålla prediktiv analys och föreslå justeringar för att förbättra svingeffektiviteten.

Utökning till Flerperson-scenarier: Förbättring av tillämpbarhet i lagsporter eller gruppträtningsomiljöer.

Utveckling av ett Användarvänligt Gränssnitt: Skapandet av applikationer eller verktyg som gör denna teknik tillgänglig för tränare och idrottare utan teknisk expertis.

Bilaga

Detaljerad Metodologi: Uppifrånmetod för Golfsvings-kroppshållningsuppskattning med RTMPose-X och RTMDet-M

Översikt

Metodologin som beskrivs här presenterar de detaljerade stegen i en uppifrånmetod för realtids-kroppshållningsuppskattning av en golf- och basebollsving, med utnyttjande av RTMPoses styrkor för nyckelriktningslokaliserering och RTMDets styrkor för objektdetektering. Processen är uppdelad i flera stadier: detektering, nyckelriktningslokaliserering och efterbehandling, vilka var och en bidrar till precis och effektiv uppskattning av kroppsleder i en golfsving för biomekansk analys.

–Infoga figur–

1. Detekeringsfas: Realtidslokaliserering med RTMDet-M

Det första stadiet i uppifrånmetoden omfattar att detektera golfaren inom varje bildruta i videon. I sportscenarier, särskilt golf, består scenen vanligtvis av en enda spelare, vilket förenklar detekteringsuppgiften jämfört med folksamlingsscener.

1.1 Modellarkitektur

RTMDet-M används som objektdetektor i pipelinen. Den använder ett convolutional neuralt nätverk (CNN) backbone, specifikt CSPNeXt-backbone, designat för att optimera realtidsobjektdetekteringsprestanda samtidigt som balans bibehålls mellan hastighet och noggrannhet. Viktiga aspekter av arkitekturen omfattar:

Djupvisa faltningar med stor kärna: Dessa används i backbone och neck-lager, vilket ökar receptiva fältet medan låg beräkningskostnad upprätthålls.

Feature pyramid network (FPN): En multiresolutionsfeaturextraheringsteknik som möjliggör detektering av objekt på olika skalor, vilket säkerställer att golfaren kan detekteras oavsett sitt avstånd från kameran.

1.2 Dynamisk Etiketttilldelning

RTMDet-M utnyttjar en dynamisk etiketttilldelningsstrategi som förbättrar detekteringsnoggrannhet genom att tilldela mjuka etiketter till objekt baserat på en kombination av klassificerings- och lokaliseringsförlust. Etikettilldelningen styrs av SimOTA-algoritmen, som dynamiskt väljer positiva sampel baserat på deras sannolikhet att matcha sanningens objekt. Denna metod säkerställer robust detektering under varierande belysnings- och miljöförhållanden som ofta förekommer i utomhus golfscener.

1.3 Förutsägelse av Avgränsningsram

Detektorn skickar ut Avgränsningsramar som omsluter golfaren i varje bildruta. Dessa Avgränsningsramar ger rumsliga begränsningar inom vilka modellen för skattning av kroppshållning kommer att fungera, vilket minskar beräkningsbelastningen på den efterföljande fasen för skattning av kroppshållning genom att endast fokusera på relevanta områden i bildrutan. I det här sammanhanget genererar RTMDet-M Avgränsningsramar i realtid med över 300 FPS på högpresterande hårdvara, vilket säkerställer att systemet kan hålla jämna steg med golfsvingningens snabba dynamik.

1.4 Person Non-Maximum Suppression (NMS)

I miljöer med flera personer (även om detta är sällsynt inom golfsvinganalys) innehåller RTMDet-M en Non-Maximum Suppression (NMS)-algoritm för kroppshållning som eliminerar överflödiga nyckelriktningsdetektioner, vilket säkerställer att endast de mest säkra detektionerna behålls för alla. Detta är avgörande i fall där överlappande Avgränsningsramar kan detekteras i folkrika scener eller videosekvenser.

1.5 Dataset för träning och Prestation

RTMDet-M tränas på en binär klassificeringsuppgift på personinstanser i Object356 dataset.

2. Fas för skattning av kroppshållning: RTMPose-X Lokalisering av Nyckelriktningar

När Avgränsningsramen för golfaren har etablerades går nästa fas ut på att uppskatta den exakta positionen för viktiga kropp-Leder inom denna region. RTMPose-X, en högpresterande modell för skattning av kroppshållning, används för detta ändamål.

2.1 SimCC-baserad Lokalisering av Nyckelriktningar

RTMPose-X använder SimCC-algoritmen (Simple Coordinate Classification), som behandlar lokalisering av Nyckelriktningar som ett klassificeringsproblem. I motsats till traditionella värmekarta-baserade metoder delar SimCC x- och y-Koordinaterna för varje Nyckelrikt upp i fack och klassificerar det exakta facket där varje Nyckelrikt ligger. Detta tillvägagångssätt minskar avsevärt beräkningskomplexiteten och förbättrar inferenshastigheten samtidigt som det bibehåller höga noggrannhet för skattningsuppgifter av mänsklig kroppshållning.

2.2 CSPNeXt Backbone

På samma sätt som RTMDet-M använder RTMPose-X också CSPNeXt backbone, som är anpassad för täta prediktionsuppgifter såsom skattning av kroppshållning. CSPNeXt backbone är fördelaktig i detta scenario av följande skäl:

Lätt arkitektur: Modellens arkitektur är utformad för att minimera antalet parametrar samtidigt som genomströmningen maximeras, vilket gör den idealisk för realtidsapplikationer.

Effektiv funktionsextraktion: CSPNeXt:s funktionsexraktionslager är optimerade för att behandla högupplösta bilder, vilket är avgörande för att detektera små detaljer i snabbrörliga kroppsdelar under en golfswing, såsom handled, armbåge och knän.

2.3 Representation av Nyckelriktningar

RTMPose-X skickar ut Nyckelriktningspositioner för alla relevanta kroppsdelar, inklusive:

Leder i Överkropp: Axlar, Armbågar, Handled och Nacke

Leder i Nedre Kropp: Höfter, Knän och Fotleder

Ytterligare Leder: Huvud, ryggrad och andra nyckelriktningar som är relevanta för svinganalys

Upplösningen på 384x288 för ingångsbilderna säkerställer att även subtila rörelser i Lederna kan fångas korrekt, samtidigt som systemets förmåga att köra i realtid bibehålls.

2.4 RTMPose förbehandling: Opartisk databehandling (UDP)

Innan den beskuren bilden matas in i RTMpose-modellen utförs ett Unbiased Data Processing (UDP)-steg. UDP löser kritiska förspänningar i databehandlingen av RTMpose under träning och testning, specifikt i transformationer av Koordinatsystem och Nyckelriktningsformat. I konventionella pipelines för skattning av mänsklig kroppshållning leder standardoperationer såsom spegling och storleksförändring ofta till felaktig justering av resultat, särskilt på grund av pixelbaserade transformationer, vilket orsakar precisionförlust och felaktig justering av speglade bilder. UDP korrigerar detta genom att etablera en opartisk Koordinatsystemtransformation som bevarar semantisk justering över olika Koordinatutrymmen under väsentliga operationer (beskärning, storleksförändring, rotation, spegling). UDP introducerar också opartisk Nyckelriktningsformattransformation genom att koda Nyckelriktningar in i värmekartror utan att introducera positionsbias, ytterligare förfinad genom en Gaussisk distributionsmedveten avkodningsprocess. Detta databehandlingstillvägagångssätt förbättrar systematiskt modellprestandan, enligt omfattande tester på COCO och CrowdPose dataset, där det uppnådde förbättrad noggrannhet och reducerad inferenslatensvad över top-down och bottom-up modeller [Ref].

3. Efterbehandling och Förfining av Kroppshållning

När Nyckelriktningarna har förutsagits tillämpas flera efterbehandlingssteg för att förfina skattningen av kroppshållning och säkerställa stabilitet över ramar.

3.1 Utjämning av Kroppshållning

Golfswingningar involverar snabb rörelse, vilket kan introducera brus eller fluktuationer i de uppskattade Nyckelriktningspositionerna över ramar. För att minska detta tillämpas ett One-Euro Filter för att utjämna Nyckelriktningsbanor över tid, vilket säkerställer att små, ofysikaliska fluktuationer i Nyckelriktningsförutsägelserna elimineras. One-Euro Filtret fungerar genom att dynamiskt justera filtrets bandbredd baserat på rörelsehastigheten, vilket är idealiskt för scenarier som golfswingningar, där rörelsen varierar avsevärt i hastighet över olika faser (Bakåtsvång, Nedåtsvingen och Follow-through).

3.2 Ramöverslagsmekanism

För ytterligare optimering implementeras en ramöverslagsmekanism, där detektering utförs endast på nyckelbilder och skattning av kroppshållning interpoleras för mellanliggande ramar. Detta minskar drastiskt beräkningsbelastningen utan att offra noggrannhet i scenarier med begränsad rörelse mellan ramar, såsom långsam rörelseanalys av en golfswing.

4. Temporal Spårning och Sekvensvkonsekvens

Givet att golfswingningar är inneboende sekventiella är det viktigt att upprätthålla temporal konsekvens i skattningen av kroppshållning. RTMPose-X löser detta genom temporala spårningstekniker, som säkerställer att Nyckelriktningsförutsägelserna är konsekventa över på varandra följande ramar. Detta innebär att spåra Nyckelriktningspositioner över tid och säkerställa att deras banor följer realistiska rörelsemönster baserade på biomekanska begränsningar.

4.1 Analys av Nyckelriktnings Hastighet och Acceleration

Förutom att spåra Nyckelriktningspositioner uppskattar RTMPose-X också Hastigheten och Accelerationen för varje Nyckelrikt. Denna information är kritisk för att analysera dynamiken i en golfswing, vilket ger insikter om viktiga prestandamätetal såsom:

Svängningshastighet: Beräknad baserat på handled-Hastighet under Nedåtsvingen.

Höftrotation: Analyserad genom rotationsvinkelhastigheten för Höftlederna.

Klubbvägsbana och huvudhastighet: Härledd indirekt från handled- och armbågsbanor.

Dessa mätetal kan jämföras mot professionella riktmärken för att ge feedback om en spelares swing mekanik.

5. Inferens och Realtidsprestationen

Hela uppifrånmetoden-pipelinen är optimerad för realtidsprestationen, vilket möjliggör skattning av kroppshållning med över 90 FPS på moderna GPUer. Användningen av högt effektiva modellarkitekturer (CSPNeXt) och snabba inferenstekniker (SimCC) säkerställer att systemet kan hantera videoinmatning med höga bildhastigheter, vilket gör det lämpligt för realtidsfeedback under träningssessioner.

6. Utvärdering och Validering

RTMPose-X och RTMDet-M modellerna utvärderas på standarddataset såsom COCO och MPII, som visar stark prestationen med en genomsnittlig precision (AP) på 75,8% på COCO dataset för kroppsnyckelriktningar. Dessa resultat valideras mot ground-truth-anteckningar i golfswing dataset, vilket säkerställer robustheten hos modellen när det gäller att fånga dynamiska sportörelser.

6.1 Prestationsmätetal

Mean Squared Error (MSE): Används för att kvantifiera noggrannheten i förutsägelser av nyckelriktningar mot referensannoteringar.

Average Precision (AP): Utvärderar den övergripande prestationen för modellen för skattning av kroppshållning.

Bildrutabearbetningstid: Benchmarkad för att säkerställa att systemet uppfyller realtidskrav (<10 ms per bildruta).

7. Sammanfattning

Uppifrånmetoden med RTMPose-X och RTMDet-M ger en effektiv och noggrann metod för realtidsskattning av kroppshållning inom sportanalytik, särskilt för golfswinganalys. Med robust detektering av nyckelriktningar, temporal spårning och inferens i realtid, erbjuder denna metod detaljerade biomekaniska insikter om golfsvingdynamik, vilket stödjer prestandaförbättring och skadeprevention.

Referenser

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI challenge dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset: