Forbedring av Markerløs Bevegelsesopptak for Golf- og Baseball-Swing ved hjelp av RTMPose og RTMDet: En Ovenfra-tilnærming
Forbedring av Markerløs Bevegelsesopptak for Golf- og Baseball-Swing ved hjelp av RTMPose og RTMDet: En Ovenfra-tilnærming
Sammendrag
Denne hvitboken dokumenterer bruken av RTMPose og RTMDet for nøyaktig og effektiv posisjonsestimering av golf- og baseball-svinger. Ved å utnytte toppmoderne teknikker optimalisert for sanntidsytelse, muliggjør disse modellene detaljert sporing av kroppsbevegelserunder golf- og baseball-svinger – en kritisk funksjon for å forbedre prestasjon innen sportanalyse. Vi fremhever fordelene med en ovenfra-tilnærming, der en RTMDet-detektor som er tilgjengelig kjøpt, identifiserer golfspilleren og baseball-spilleren i hver bilde, og RTMPose estimerer posisjonen til nøkkelbodyskarakterpunkter.
1. Introduksjon
Posisjonsestimering har blitt avgjørende innen sportprestasjonsanalyse, og muliggjør nøyaktig sporing av atleters bevegelser. I golf og baseball gir opptak av biomekaniske data fra en spillers sving verdifulle innsikter i svingdynamikk, noe som hjelper både profesjonelle og amatører med å raffinere teknikken sin. Tradisjonelle 2D-posisjonsestimeingsmetoder møter ofte forsinkelser og nøyaktighetskhallenges, særlig i sanntidsscenarioer. Denne artikkelen foreslår en løsning ved hjelp av RTMPose og RTMDet innenfor mmpose Framework for detaljert posisjonsestimering under golf- og baseball-svinger.
2. Bakgrunn
Kompleksiteten ved golf- og baseball-svinger krever nøyaktig måling av kroppsbevegelser. Eksisterende posisjonsestimeingsmetoder gir kanskje ikke den nødvendige nøyaktigheten for sanntidsytelse. Fremskritt innen dypelæring og datasyn har introdusert modeller som RTMPose og RTMDet, som tilbyr forbedret nøyaktighet og effektivitet.
3. Ovenfra-tilnærming med RTMdet og RTMpose
–insert figure–
3. RTMPose: En høytytende posisjonsestimeringmodell
RTMPose [1] er designet for høytytende, sanntidsposisjonsestimering, optimalisert for effektiv kjøring på begrenset maskinvare.
Nøkkelfunksjoner:
Modellarkitektur og effektivitet: RTMpose bruker CSPNeXt som ryggrad [1, 2], med balanse mellom hastighet og nøyaktighet. CSPNeXt er optimalisert for tetttetthetsforutsigelsesoppgaver som posisjonsestimering og objektdeteksjon, og gir høy oppløsning og presisjon samtidig som den opprettholder beregningseffektivitet.
Nøkkelpunktforutsigelse: Bruker en SimCC-basert algoritme [1, 3], som behandler de horisontale og vertikale posisjonene til nøkkelpunkter som separate klassifiseringssoppgaver. Denne kompakte representasjonen reduserer beregningsbelastningen og egner seg for distribusjon på ulike enheter.
4. RTMDet: Deteksjonsryggraden
RTMDet [4] fungerer som detektoren foran RTMPose i ovenfra-tilnærmingspipeline, og identifiserer golfspillerens eller baseball-spillerens lokasjon innenfor hver bilde.
Nøkkelfunksjoner:
Modellarkitektur og effektivitet: RTMDet benytter en modifisert versjon av CSPDarkNet [5] som er mer opplærbar og presis enn mange av YOLO-modellene. Den modifiserte versjonen bruker dybdekonglovasjoner med stor kjerne for å balansere kompleksitet og hastighet og er effektiv både på GPU og CPU. Den er ideell for sanntidsapplikasjoner som sportprestasjonssporing.
Allsidighet: Håndterer ulike objektdeteksjonsoppgaver, inkludert instanssegmentering og rotert objektdeteksjon. Sikrer nøyaktig lokalisering av spilleren, selv i dynamiske scener.
5. Fordeler ved bruk av RTMDet og RTMPose i Golf- og Baseball-Svinganalyse
5.1 Høyere nøyaktighet i ikke-overfylte scener
I typiske golf-/baseball-innstillinger med få individer i bildet, isolerer RTMDet golfspilleren/baseball-spilleren, slik at RTMPose kan behandle hver detektert person med høy nøyaktighet. Dette unngår kompleksiteten i bunn-opp-metoder som behandler alle nøkkelpunkter for alle personer i bildet samtidig. Ovenfra-tilnærmingen kan også inkludere etterbehandlingsalgoritme av RTMdet for å identifisere riktig person (dvs. golfspiller eller baseball-spiller) før posisjonsestimering. I tillegg har RTMPose vært forhåndstrent på utvidet bildemateriell som inneholder
5.2 Effektiv beregning og sanntidsytelse
Ved bruk av lette modeller, som RTMdet og RTMpose, opprettholdes lav latens, noe som muliggjør sanntidssvinganalyse på maskinvare av forbrukerkvalitet. Dette er særlig nyttig for å gi umiddelbar live-tilbakemelding under coaching eller treningsøkter. Swing Catalyst markerløs bevegelsesopptakssystem er et av få studiosystemer som gir live bevegelsesopptakstilbakemelding til golfspillere og baseball-spillere.
5.3 Detaljert nøkkelpunktanalyse
RTMPose detekterer et sett på 26 kroppskarakterpunkter [6] vist i figur 1 nedenfor, som er essensielle for analyse av golf- og baseball-svingkinematikk. Halpe26 er et utvidet sett som inkluderer tilleggsmarkører på foten og hodet sammenlignet med det mer standardiserte COCO-settet med 17 markører.
–Insert Figure–
6. Metodikk for Golf- og Baseball-Swing Markerløs Bevegelsesopptak
6.1 Deteksjonsfase: RTMDet
Brukt på videoflater av en golfspiller eller baseball-spiller, genererer RTMDet avgrensningsbokser rundt spilleren, som sendes til RTMPose. Dette fokuserer posisjonsestimeringen på relevante bilderegioner, noe som reduserer beregningsbelastningen.
–Insert Image–
6.2 Posisjonsestimeringsfase: RTMPose
RTMPose estimerer nøkkelpunktposisjoner innenfor avgrensningsboksen. Kritiske ledd for golf- og baseball-svinganalyse inkluderer håndledd, albuer, skuldrer, hofter og knær. Disse nøkkelpunktene vurderer kroppsvinkler og posisjoner under svingfasene: baksvingning, nedsving og følgbevegelse.
–Insert Image–
6.3 Ytelsesmålinger
Den generelle ytelsen til RTMPose måles ved hjelp av metrikker som Average Precision (AP) på posisjonsestimeringsbenchmarks som MS COCO. Nedenfor er ytelsen til de best rangerte modellene på vanlig brukte COCO-benchmarks. På MS COCO val-datasettet er RTMPose-X den best presterende modellen som kan gi sanntidstilbakemelding og oppnår opptil 75,8% AP med bildehastigheter som overskrider ?? FPS på forbrukerkvalitets-GPUer, noe som gjør den egnet for høyhastighetssportanalyse.
Rangering Modell Oppløsning Størrelse/parametere (Mill) AP Sanntidsinferens
1 Sapiens-2B 1024x768 2000 82,2 Nei
2 Sapiens-1B 1024x768 1000 82,1 Nei
3 Sapiens-0.6B 1024x768 600 81,2 Nei
4 Sapiens-0.3B 1024x768 300 79.6 Nei
5 VitPose-H 256x192 632 79.4 Nei
6 RTMPose-X 384x288 49 78.8 Ja
7 VitPose-L 256x192 307 78.6 Nei
8 RTMPose-L 384x288 28 78.3 Ja
9 HRFormer 256x192 43 77.2 Nei
10 HRNet-UDP 384x288 64 77.2 Ja
11 VitPose-B 256x192 86 77.0 Ja
12 RTMPose-L 256x198 28 76.7 Ja
13 RTMPose-M 384x288 14 76.6 Ja
14 HRNet 384x288 64 76.3 Ja
15 VitPose-S 256x192 43 75.8 Ja
16 RTMPose-M 256x192 14 74.9 Ja
17 SimpleBaseline 256x192 60 73.5 Ja
18 FastPose 256x192 79 73.3 Ja
7. Bruk i golfsvinganalyse
Ved å bruke RTMPose-X og RTMDet-M rammeverket:
Spor leddsbevegelser bilde for bilde: Gir omfattende data for analyse av hver fase av svingen.
Gi sanntidstilbakemelding: Muliggjør umiddelbar innsikt i svingstilling og form under treningsøkter.
Sammenlign med ideell mekanikk: Tillater sammenligning mot ideell svingkinematikk for å identifisere områder for forbedring.
8. Konklusjon
Integrasjonen av RTMPose-X og RTMDet-M tilbyr en kraftig løsning for sanntidsgolfsvinganalyse. Med høy presisjon, lav latens og kompatibilitet på tvers av ulike maskinvareplattformer, gir denne ovenfra-tilnærmingen detaljert innsikt i svingmekanikk. Den har betydelig potensial til å hjelpe både amatør- og profesjonelle golfspillere med å forbedre prestasjonene sine.
9. Fremtidig arbeid
Fremtidige utviklinger kunne omfatte:
Integrering av maskinlæringsalgoritmer: For å gi prediktiv analyse og foreslå justeringer for forbedring av svingeffektivitet.
Utvidelse til flerpersonsscenarier: Forbedring av anvendelighet i lagsporter eller gruppetrening.
Utvikling av brukervennlig grensesnitt: Oppretting av applikasjoner eller verktøy som gjør denne teknologien tilgjengelig for trenere og atleter uten teknisk kompetanse.
Vedlegg
Detaljert metodikk: Ovenfra-tilnærming for estimering av golfsvingposisjon ved hjelp av RTMPose-X og RTMDet-M
Oversikt
Metodikken beskrevet her skisserer de detaljerte stegene involvert i en ovenfra-tilnærming for sanntidsposisjonsestimering av en golf- og baseballsving, med utnyttelse av styrkene til RTMPose for nøkkelpunktslokaliseringen og RTMDet for objektdeteksjon. Prosessen er delt inn i flere stadier: deteksjon, nøkkelpunktslokaliseringen og etterbehandling, som hver bidrar til nøyaktig og effektiv estimering av kroppskarakterpunkter i en golfsving for biomekansk analyse.
–Sett inn figur–
1. Deteksjonsfase: Sanntidslokaliseringen med RTMDet-M
Det første stadiet i ovenfra-tilnærmingen innebærer å oppdage golfspilleren innenfor hver ramme av videoen. I sportsscenarier, særlig golf, består scenen vanligvis av en enkelt spiller, noe som forenkler deteksjonsoppgaven sammenlignet med folkemengdescener.
1.1 Modellarkitektur
RTMDet-M brukes som objektdetektoren i rørledningen. Den bruker et konvolusjonalt nevralt nettverk (CNN) ryggstykke, spesielt CSPNeXt-ryggen, designet for å optimalisere ytelsen til objektdeteksjon i sanntid samtidig som det opprettholdes en balanse mellom hastighet og nøyaktighet. Viktige aspekter ved arkitekturen inkluderer:
Dypkonvolusjoner med stor kjerne: Disse blir brukt i ryggstykke- og nettlagene, noe som øker det reseptive feltet samtidig som det opprettholder lave beregningskostnader.
Funksjonspyramidnettverk (FPN): En flerrskala-funksjonsekstraksjonsteknikksom tillater deteksjon av objekter i ulike skalaer, og sikrer at golfspilleren kan detekteres uavhengig av avstanden fra kameraet.
1.2 Dynamisk merkeetiketttildeling
RTMDet-M utnytter en dynamisk merkeingsstrategi som forbedrer deteksjonnøyaktigheten ved å tilordne myke etiketter til objekter basert på en kombinasjon av klassifiserings- og lokaliseringsviktig. Merketildelingen styres av SimOTA-algoritmen, som dynamisk velger positive prøver basert på deres sannsynlighet for å samsvare med grunnsannhets-objektet. Denne metoden sikrer robust deteksjon under varierende belysnings- og miljøforhold som ofte oppstår i utendørs golfscener.
1.3 Avgrensningsboks-prediksjon
Detektoren gir ut avgrensningsbokser som omslutter golfspilleren i hver ramme. Disse avgrensningsboksene gir romlige begrensninger som posisjonsestimeringmodellen vil operere innenfor, og reduserer den beregningsmessige belastningen på den påfølgende posisjonsestimeringsfasen ved å fokusere kun på relevante områder av bildet. I denne sammenheng genererer RTMDet-M avgrensningsbokser i sanntid med over 300 FPS på høyperformant maskinvare, noe som sikrer at den kan holde tritt med de raske dynamikkene i en golfsving.
1.4 Person Non-Maximum Suppression (NMS)
I flerpersonsinnstillinger (selv om sjeldne i golfsvinganalyse) inneholder RTMDet-M en Non-Maximum Suppression (NMS)-algoritme for posisjoner som eliminerer redundante nøkkelpunktdeteksjoner, og sikrer at kun de mest sikre deteksjonene beholdes for alle. Dette er kritisk i tilfeller der overlappende avgrensningsbokser kan detekteres i tette scener eller videosekvenser.
1.5 Treningsdataset og Prestasjon
RTMDet-M er trent på en binær klassifiseringsoppgave på personforekomstene i Object356-datasettet.
2. Posisjonsestimeringsfase: RTMPose-X Nøkkelpunktlokalisering
Når avgrensningsboksen for golfspilleren er etablert, innebærer neste fase å estimere den presise plasseringen av sentrale kroppsled innenfor denne regionen. RTMPose-X, en høyperformant posisjonsestimeringmodell, brukes til dette formålet.
2.1 SimCC-basert Nøkkelpunktlokalisering
RTMPose-X bruker SimCC-algoritmen (Simple Coordinate Classification), som behandler nøkkelpunktlokalisering som et klassifiseringsproblem. I motsetning til tradisjonelle varmekartsbaserte metoder deler SimCC x- og y-koordinatene til hvert nøkkelpunkt inn i søppelkasser og klassifiserer den eksakte søppelkassen der hver nøkkelpunkt ligger. Denne tilnærmingen reduserer beregningsmessig kompleksitet betydelig og forbedrer inferenshastigheten samtidig som den opprettholder høy nøyaktighet for menneskelig posisjonsestimering.
2.2 CSPNeXt Ryggraft
I likhet med RTMDet-M bruker RTMPose-X også CSPNeXt-ryggraden, som er tilpasset for oppgaver med tett prediksjon som posisjonsestimering. CSPNeXt-ryggraden er fordelaktig i dette scenarioet av følgende grunner:
Lett arkitektur: Modellens arkitektur er designet for å minimere antall parametere mens den maksimerer gjennomstrømningen, noe som gjør den ideell for sanntidsapplikasjoner.
Effektiv funksjonsekstraksjon: CSPNeXt sitt funksjonsekstraksjonslag er optimalisert for å behandle høyoppløsningsbilder, noe som er avgjørende for å detektere små detaljer i raskt bevegelige kroppsdeler under en golfsving, som håndledd, albuer og knær.
2.3 Nøkkelpunktrepresentasjon
RTMPose-X gir nøkkelpunktplasseringer for alle relevante kroppsdeler, inkludert:
Øvre kroppsledd: Skuldrer, albuer, håndledd og nakke
Nedre kroppsledd: Hofter, knær og ankler
Tilleggsledd: Hode, ryggulv og andre nøkkelpunkter relevant for svinganalyse
Oppløsningen på 384x288 for inngangbildene sikrer at selv subtile bevegelser i leddene kan fanges nøyaktig, samtidig som systemets evne til å kjøre i sanntid opprettholdes.
2.4 RTMPose-forbehandling: Upartisk dataprosessering (UDP)
Før det beskjårne bildet legges inn i RTMPose-modellen, utføres et Unbiased Data Processing (UDP)-trinn. UDP adresserer kritiske skjevheter i dataprosesseringen av RTMPose under trening og testing, spesifikt i transformasjoner av koordinatsystem og nøkkelpunktformat. I konvensjonelle menneskelige posisjonsestimeringspipelines fører standardoperasjoner som vending og endring av størrelse ofte til feilaktig justering av resultater, spesielt på grunn av pikselbaserte transformasjoner, som fører til tap av presisjon og ikke-justering av vendte bilder. UDP korrigerer disse ved å etablere en upartisk transformasjon av koordinatsystem, og bevarer semantisk justering på tvers av ulike koordinatrom under viktige operasjoner (beskjæring, endring av størrelse, rotasjon, vending). UDP introduserer også upartisk transformasjon av nøkkelpunktformat ved å kode nøkkelpunkter inn i varmekart uten å introdusere posisjonsforskjell, videre raffinert gjennom en Gauss-distribusjonsbevisst dekodingsprosess. Denne dataprosesseringstilnærmingen forbedrer modellytelsen systematisk, som vist i omfattende tester på COCO og CrowdPose-datasett, der den oppnådde forbedret nøyaktighet og redusert inferenslatens på tvers av topp-ned og bunn-opp-modeller [Ref].
3. Etterbehandling og Posisjonsrefinement
Når nøkkelpunktene er predikert, brukes flere etterbehandlingstrinn for å raffinere posisjonsestimeringen og sikre stabilitet på tvers av rammer.
3.1 Posisjonsutjevning
Golfsvinger innebærer rask bevegelse, som kan introdusere støy eller svingninger i de estimerte nøkkelpunktposisjonene på tvers av rammer. For å dempe dette brukes et One-Euro Filter for å utjevne nøkkelpunktbaner over tid, noe som sikrer at små, ikke-fysiske svingninger i nøkkelpunktprediksjonene elimineres. One-Euro Filteret opererer ved å dynamisk justere filterbåndbredden basert på bevegelseshastigheten, noe som er ideelt for scenarier som golfsvinger, der bevegelsen varierer betydelig i hastighet på tvers av ulike faser (baksvingning, nedsving og følgbevegelse).
3.2 Rammehoppmekanisme
For ytterligere optimalisering implementeres en rammehoppmekanisme, der deteksjon utføres kun på nøkkelrammer, og posisjonsestimering interpoleres for mellomliggende rammer. Dette reduserer beregningsmessig belastning drastisk uten å ofre nøyaktighet i scenarier med begrenset bevegelse mellom rammer, som langsom motionanalyse av en golfsving.
4. Tidsmessig sporing og Sekvenskonsistens
Gitt at golfsvinger er iboende sekvensielle, er det vital å opprettholde tidsmessig konsistens i posisjonsestimering. RTMPose-X adresserer dette gjennom tidsmessige sporingsteknikker, som sikrer at nøkkelpunktprediksjonene er konsistente på tvers av påfølgende rammer. Dette innebærer å spore nøkkelpunktposisjoner over tid og sikre at deres baner følger realistiske bevegelsesmønstre basert på biomekankske begrensninger.
4.1 Nøkkelpunkt-hastighet og Akselerasjonsanalyse
I tillegg til sporing av nøkkelpunktposisjoner estimerer RTMPose-X også hastigheten og akselerasjonen til hvert nøkkelpunkt. Denne informasjonen er kritisk for å analysere dynamikken i en golfsving, og gir innsikt i nøkkelprestasjonsmetrikker som:
Svingfart: Beregnet basert på håndleddshastighet under nedsving.
Hofterotasjon: Analysert gjennom rotasjonshastigheten til hofteleddene.
Klubbbane og hodehastighet: Utledet indirekte fra håndledd og albuebaner.
Disse metrikkerene kan sammenlignes mot faglige referanseverdier for å tilby tilbakemelding på en spillers svingmekanikk.
5. Inferens og Sanntidsytelse
Hele ovenfra-tilnærmingens pipeline er optimalisert for sanntidsytelse, noe som muliggjør posisjonsestimering på over 90 FPS på moderne GPUer. Bruken av svært effektive modellarkitekturer (CSPNeXt) og raske inferensteknikker (SimCC) sikrer at systemet kan håndtere video med høy bildehastighet, noe som gjør det egnet for sanntidstilbakemelding under treningsøkter.
6. Evaluering og Validering
RTMPose-X og RTMDet-M-modellene evalueres på standarddatasett som COCO og MPII, og viser sterk ytelse med gjennomsnittlig presisjon (AP) på 75,8 % på COCO-datasettet for kroppskarakterpunkter. Disse resultatene valideres mot grunnwahrhetannotasjoner i golfsving-datasett, noe som sikrer modellens robusthet i å fange dynamiske sportsbevegelser.
6.1 Prestasjonsmålinger
Gjennomsnittlig kvadratisk feil (MSE): Brukes til å kvantifisere nøyaktigheten av nøkkelpunktprediksjoner mot grunnlinjeannotasjoner.
Gjennomsnittlig presisjon (AP): Evaluerer den overordnede ytelsen til posisjonsestimeringmodellen.
Bildeprosesseringstid: Benchmarked for å sikre at systemet oppfyller sanntidskrav (<10 ms per bilde).
7. Konklusjon
Ovenfra-tilnærmingen med RTMPose-X og RTMDet-M gir en effektiv og nøyaktig metode for sanntidsposisjonsestimering innen sportanalyse, spesielt for analyse av golfsvinger. Med robust nøkkelpunktdeteksjon, temporal sporing og sanntidsinferens tilbyr denne metodologien detaljert biomekanisk innsikt i golfsvingdynamikk, som hjelper til med prestasjonsforbedringe og skadeprevensjon.
Referanser
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] AI-utfordringsdataset:
[] MS Coco-dataset:
[7] Crowdpose-dataset: https://arxiv.org/pdf/1812.00324
[] MPII-dataset:
[] sub-JHMBD-dataset:
[] Halpe-dataset:
[] PoseTrack18-dataset:
Object365-database: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Sist oppdatert: 2025-03-05 | Se på offisiell support-nettsted