Golf ir beisbolo šūvio judėjimo fiksavimo be žymenų pagerinimas naudojant RTMPose ir RTMDet: Nuo viršaus žemyn metodas
Golf ir beisbolo šūvio judėjimo fiksavimo be žymenų pagerinimas naudojant RTMPose ir RTMDet: Nuo viršaus žemyn metodas
Santrauka
Šiame techninės dokumentacijos darbe aprašoma RTMPose ir RTMDet taikymas tiksliam ir efektyviam golf ir beisbolo šūvio pozos nustatymui. Naudodamiesi moderniausiomis realaus laiko veikimui optimizuotomis technikomis, šie modeliai leidžia detalizuotai sekti kūno judesius golf ir beisbolo šūvio metu—kritinę sporto analitikos savybę, skirtą sporto rezultatams gerinti. Išryškiname nuo viršaus žemyn metodo privalumus, kur šiuolaikinis RTMDet detektorius identifikuoja golfininką ir beisbolo žaidėją kiekviename kadre, o RTMPose nustato pagrindinių kūno sąnarių padėtis.
1. Įvadas
Pozos nustatymas tapo svarbiu sporto rezultatyvumo analizės aspektu, leidžiančiu tiksliai sekti sportininkų judesius. Golf ir beisbole atliekant žaidėjo šūvio biomechaninius duomenis, suteikiama vertinga informacija apie šūvio dinamiką, padedanti profesionalams ir amatorams tobulinti jų techniką. Tradiciniai 2D pozos nustatymo metodai dažnai susiduria su latencijos ir tikslumo iššūkiais, ypač realaus laiko scenarijuose. Šiame darbe siūlomas sprendimas naudojant RTMPose ir RTMDet mmpose Framework viduje, skirtas detaliam pozos nustatymui golf ir beisbolo šūvio metu.
2. Pagrindas
Golf ir beisbolo šūvio sudėtingumas reikalauja tikslaus kūno judesių matavimo. Esami pozos nustatymo metodai gali nesuteikti reikalingo tikslumo realaus laiko veikimui. Gilaus mokymosi ir kompiuterinės raiškos pažanga pristatė modelius, tokius kaip RTMPose ir RTMDet, kurie siūlo patobulintą tikslumą ir efektyvumą.
3. Nuo viršaus žemyn metodas su RTMdet ir RTMpose
–insert figure–
3. RTMPose: Aukštos veiklos pozos nustatymo modelis
RTMPose [1] yra sukurtas aukštos veiklos realaus laiko pozos nustatymui, optimizuotas bėgti efektyviai ribotoje aparatūroje.
Pagrindinės savybės:
Modelio architektūra ir efektyvumas: RTMpose naudoja CSPNeXt kaip savo pagrindą [1, 2], subalansuodamas greitį ir tikslumą. CSPNeXt yra optimizuota tankiam numatymo užduotims, tokioms kaip pozos nustatymas ir objekto aptikimas, suteikiant aukštą skyrą ir tikslumą, išlaikant skaičiavimo efektyvumą.
Pagrindinių taškų numatymas: Naudoja SimCC pagrįstą algoritmą [1, 3], traktuodama pagrindinių taškų horizontalias ir vertikalias padėtis kaip atskiras klasifikavimo užduotis. Šis kompaktiškas vaizdavimas sumažina skaičiavimo apkrovą ir tinka diegimui įvairiuose įrenginiuose.
4. RTMDet: Aptikimo pagrindas
RTMDet [4] veikia kaip detektorius prieš RTMPose nuo viršaus žemyn konvejeriu, identifikuodamas golfininko arba beisbolo žaidėjo vietą kiekviename kadre.
Pagrindinės savybės:
Modelio architektūra ir efektyvumas: RTMDet naudoja modifikuotą CSPDarkNet versiją [5], kuri yra labiau mokomoji ir tikslesnė nei daugelis YOLO modelių. Modifikuota versija naudoja dideles branduolio gilumo išsiskirtumo konvoliucijas subalansuoti sudėtingumui ir greičiui bei yra efektyvi tiek GPU, tiek CPU. Tai idealu realaus laiko programoms, tokioms kaip sporto rezultatyvumo sekimas.
Universalumas: Valdo įvairias objekto aptikimo užduotis, įskaitant instancijų segmentaciją ir susuktą objekto aptikimą. Užtikrina tikslų žaidėjo vietą, net ir dinamiškose scenose.
5. RTMDet ir RTMPose naudojimo golf ir beisbolo šūvio analizėje privalumai
5.1 Didesnis tikslumas neužpildytose scenose
Typinėse golf/beisbolo scenose su nedaug asmenų kadre RTMDet izoliuoja golfininką/beisbolo žaidėją, leidžiant RTMPose apdoroti kiekvieną nustatytą asmenį su dideliu tikslumu. Tai išvengia apačia į viršų nukreiptų metodų sudėtingumo, kurie vienu metu apdoroja visus pagrindinius taškus visų kadrų asmenų. Nuo viršaus žemyn metodas taip pat gali apimti RTMdet apdorojimo po pagrindinio etapo algoritmą, identifikuojantį teisingą asmenį (t. y. golfininką ar beisbolo žaidėją) prieš atliekant pozos nustatymą. Be to, RTMPose buvo iš anksto sumokytas išplėstinės vaizdo medžiagos, kurioje yra
5.2 Efektyvus skaičiavimas ir realaus laiko veikimas
Naudojant lengvus modelius, tokius kaip RTMdet ir RTMpose, palaikomas žemas latencijas, įgalinantis realaus laiko šūvio analizę vartotojo paskyros aparatūroje. Tai ypač naudinga greitam tiesioginiam grįžtamajam ryšiui suteikti treniruotės ar koučingo sesijų metu. Swing Catalyst judėjimo fiksavimo sistema be žymenų yra viena iš nedaugelio studijos sistemų, kurios suteikia gyvą judėjimo fiksavimo grįžtamąjį ryšį golfininkai ir beisbolo žaidėjams.
5.3 Detalus pagrindinių taškų žemėlapis
RTMPose nustato 26 kūno pagrindinių taškų rinkinį [6], pavaizduotą toliau pateiktame 1 paveiksle, esminį golf ir beisbolo šūvio kinematikai analizuoti. Halpe26 yra išplėstas rinkinys, kuriame yra papildomi žymenys ant kojų ir galvos, palyginti su standartizuotu Coco rinkiniu su 17 žymenų.
–Insert Figure–
6. Golf ir beisbolo šūvio judėjimo fiksavimo be žymenų metodika
6.1 Aptikimo fazė: RTMDet
Pritaikytas golfininko ar beisbolo žaidėjo vaizdo kadrams, RTMDet sukuria ribojančiuosius langelius aplink žaidėją, kurie perduodami RTMPose. Tai sukoncentruoja pozos nustatymą į svarbias vaizdo sritis, sumažindama skaičiavimo apkrovą.
–Insert Image–
6.2 Pozos nustatymo fazė: RTMPose
RTMPose nustato pagrindinių taškų padėtis ribojamajame langelyje. Kritiniai sąnariai golf ir beisbolo šūvio analizei yra riešai, alkūnės, pečiai, šlaunys ir keliai. Šie pagrindiniai taškai vertina kūno kampus ir padėtis šūvio fazėse: atgalinis šūvis, žemyn švynejimas ir tąsa po smūgio.
–Insert Image–
6.3 Veiklos metrikos
Bendras RTMPose veikimas matuojamas metrikomis, tokiomis kaip vidutinis tikslumas (AP) pozos nustatymo rezultatyvumo testuose, tokiuose kaip MS COCO. Toliau pateikiamas geriausiai įvertintų modelių veikimas pagal dažnai naudojamą Coco rezultatyvumą. MS COCO val duomenų rinkinyje RTMPose-X yra geriausiai veikiantis modelis, galintis suteikti realaus laiko grįžtamąjį ryšį ir pasiekia iki 75,8% AP su kadrų dažniu viršijančiu ?? FPS vartotojo paskyros GPU, todėl tinka didelio greičio sporto analizei.
Reitingas Modelis Skyra Dydis/parametrai (Mil) AP Realaus laiko išvada
1 Sapiens-2B 1024x768 2000 82.2 Ne
2 Sapiens-1B 1024x768 1000 82.1 Ne
3 Sapiens-0.6B 1024x768 600 81.2 Ne
4 Sapiens-0.3B 1024x768 300 79.6 Ne
5 VitPose-H 256x192 632 79.4 Ne
6 RTMPose-X 384x288 49 78.8 Taip
7 VitPose-L 256x192 307 78.6 Ne
8 RTMPose-L 384x288 28 78.3 Taip
9 HRFormer 256x192 43 77.2 Ne
10 HRNet-UDP 384x288 64 77.2 Taip
11 VitPose-B 256x192 86 77.0 Taip
12 RTMPose-L 256x198 28 76.7 Taip
13 RTMPose-M 384x288 14 76.6 Taip
14 HRNet 384x288 64 76.3 Taip
15 VitPose-S 256x192 43 75.8 Taip
16 RTMPose-M 256x192 14 74.9 Taip
17 SimpleBaseline 256x192 60 73.5 Taip
18 FastPose 256x192 79 73.3 Taip
7. Taikymas golfo šūvio analizėje
Taikant RTMPose-X ir RTMDet-M sistemą:
Sekite Sąnarių Judėjimus Kadro po Kadro: Suteikia išsamius duomenis analizuoti kiekvieną šūvio fazę.
Teikite Realaus Laiko Grįžtamąją Informaciją: Leidžia iš karto gauti įžvalgas apie šūvio laikyseną ir formą treniruotės metu.
Palyginkite su Idealia Mechanika: Leidžia palyginti su idealia šūvio kinematika, kad būtų galima nustatyti tobulintinas sritis.
8. Išvada
RTMPose-X ir RTMDet-M integravimas suteikia galingą sprendimą realaus laiko golfo šūvio analizei. Turėdama aukštą tikslumą, žemą latenciją ir suderinamumą su įvairių aparatinės įrangos platformomis, šis nuo viršaus žemyn metodas suteikia nuodugnias įžvalgas apie šūvio mechaniką. Tai turi reikšmingą potencialą padėti tiek pradedantiems, tiek profesionaliems golfaams pagerinti savo produktyvumą.
9. Būsimi darbai
Būsimi tobulinimas galėtų apimti:
Mašininio Mokymosi Algoritmų Integravimą: Kad būtų galima teikti prognostines analitiką ir siūlyti pataisas šūvio efektyvumui gerinti.
Plėtimą į Kelių Žmonių Scenarijus: Padidinti taikomumą komandiniam sportui arba grupiniam mokymuisi.
Vartotojui Draugišką Sąsają Kurimą: Kurti programas ar įrankius, kurie šią technologiją padaro prieinama trenerams ir sportininkams be techninės patirties.
Priedas
Detalus Metodas: Nuo Viršaus Žemyn Metodas Golfo Šūvio Pozos Nustatyimui Naudojant RTMPose-X ir RTMDet-M
Apžvalga
Čia aprašytas metodas nusako detalius žingsnius, susijusius su nuo viršaus žemyn metodu realaus laiko golfo ir beisbolo šūvio pozos nustatymui, panaudojant RTMPose stiprybę pagrindinių taškų lokalizavimui ir RTMDet – objekto aptikimui. Procesas yra padalintas į kelis etapus: aptikimas, pagrindinių taškų lokalizavimas ir apdorojimas po pagrindinio etapo, iš kurių kiekvienas prisideda prie tikslaus ir efektyvaus kūno sąnarių nustatymo golfo šūvyje biomechaninei analizei.
–Įterpti paveikslėlį–
1. Aptikimo Fazė: Realaus Laiko Lokalizavimas su RTMDet-M
Pirmasis nuo viršaus žemyn metodo etapas apima golfininko aptikimą kiekviename vaizdo kadre. Sportinėse situacijose, ypač golfe, scena paprastai susideda iš vieno žaidėjo, o tai supaprastina aptikimo užduotį, palyginti su minių scenom.
1.1 Modelio Architektūra
RTMDet-M naudojamas kaip objekto detektoriaus sistema. Jame naudojamas konvoliucinis neuroninį tinklą (CNN), konkrečiai CSPNeXt stuburo sistemą, sukurtą optimizuoti realaus laiko objektų aptikimo našumą išlaikant pusiausvyrą tarp greičio ir tikslumo. Pagrindiniai architektūros aspektai apima:
Didelio branduolio gylinio konvoliucijos: Šios naudojamos stuburo ir kaklo sluoksniuose, padidindamos jautrumo lauką, išlaikant žemą skaičiavimo savikainą.
Savybių piramidės tinklas (FPN): Kelių mastelių savybių ištraukimo metodika, leidžianti aptikti objektus skirtingais masteliais, užtikrinanti, kad golfininkas būtų aptiktas nepaisant atstumo nuo kameros.
1.2 Dinaminis Etiketės Priskyrimas
RTMDet-M naudoja dinaminę etiketės priskyrimo strategiją, kuri pagerina aptikimo tikslumą priskirdama švelnius etiketės objektams pagal klasifikavimo ir lokalizavimo nuostolio kombinaciją. Etiketės priskyrimas valdomas SimOTA algoritmu, kuris dinamiškai pasirenka teigiamas imtis pagal jų tikimybę sutapti su tikrais objektais. Šis metodas užtikrina patikimą aptikimą keičiasi šviesos ir aplinkos sąlygomis, dažnai sutinkamose lauko golfo scenovse.
1.3 Ribojamojo langelio numatymas
Detektorius iš kiekvieno kadro išveda Ribojamuosius langelius, kurie apgaubia golfininką. Šie Ribojamieji langeliai suteikia erdvines ribas, kuriose veiks pozos nustatymo modelis, sumažindami skaičiavimo apkrovą vėlesnėje pozos nustatymo fazėje, sutelkdami dėmesį tik į aktualias kadro sritis. Šiame kontekste RTMDet-M generuoja Ribojamuosius langelius realiuoju laiku, viršijant 300 FPS didelio našumo aparatūroje, užtikrinant, kad gali sekti greitą golfo svyravimo dinamiką.
1.4 Asmens ne maksimalaus slopinimo (NMS) nustatymas
Multi-asmeninėse situacijose (nors retai golfo svyravimo analizėje) RTMDet-M apima raktinių taškų ne maksimalaus slopinimo (NMS) algoritmą, kuris panaikina nereikalingus raktinių taškų aptikimus, užtikrinant, kad kiekvienam asmeniui būtų išsaugoti tik patikimiausieji aptikimai. Tai svarbu tais atvejais, kai persidengiantys Ribojamieji langeliai gali būti aptikti perpildytuose peizažuose arba vaizdo sekose.
1.5 Mokymo Dataset ir produktyvumas
RTMDet-M yra mokytas dvejetainės klasifikacijos užduotyje asmens egzemplioriuose Object356 dataset.
2. Pozos nustatymo fazė: RTMPose-X raktinio taško lokalizavimas
Kai tik golfininko Ribojamasis langelis yra nustatytas, kita fazė apima tikslios raktinių kūno sąnarių vietos įtikrinimą šioje srityje. RTMPose-X, didelio našumo pozos nustatymo modelis, naudojamas šiam tikslui.
2.1 SimCC pagrindu sukurtas raktinio taško lokalizavimas
RTMPose-X naudoja SimCC (Simple Coordinate Classification) algoritmą, kuris raktinio taško lokalizavimą traktuoja kaip klasifikacijos problemą. Skirtingai nuo tradicinių šilumos žemėlapio metodų, SimCC kiekvieno raktinio taško x ir y koordinates padalija į dėžes ir klasifikuoja tikslią dėžę, kurioje yra kiekvienas raktinis taškas. Šis metodas žymiai sumažina skaičiavimo sudėtingumą ir pagerina išvados greitį, išlaikant aukštą tikslumą žmogaus pozos nustatymo užduotyse.
2.2 CSPNeXt pagrindinė struktūra
Panašiai kaip RTMDet-M, RTMPose-X taip pat naudoja CSPNeXt pagrindinę struktūrą, kuri yra pritaikyta tankiems numatymo užduotims, tokioms kaip pozos nustatymas. CSPNeXt pagrindinė struktūra yra naudinga šiame scenarijuje šiais priežastimis:
Lengva architektūra: Modelio architektūra sukurta, kad sumažintų parametrų skaičių, tuo pačiu maksimizuojant pralaidumą, todėl ideali realiojo laiko programoms.
Efektyvi ypatybių išgava: CSPNeXt ypatybių išgavos sluoksniai yra optimizuoti aukštos skiriamosios gebos vaizdams apdoroti, o tai yra gyvybiškai svarbu aptikti smulkius detales greitai judančiose kūno dalyse golfo metu, tokiose kaip riešai, alkūnės ir keliai.
2.3 Raktinio taško atvaizdavimas
RTMPose-X išveda raktinių taškų vietas visiems aktualiiems kūno dalims, įskaitant:
Viršutinės kūno dalies sąnariai: pečiai, alkūnės, riešai ir kaklas
Apatinės kūno dalies sąnariai: šlaunys, keliai ir pūpliai
Papildomi sąnariai: galva, stuburas ir kiti pagrindiniai taškai, svarbūs svyravimo analizei
384x288 įvesties vaizdų skiriamoji geba užtikrina, kad net subtilūs sąnarių judesiai būtų tiksliai fiksuoti, kartu išlaikant sistemos gebą veikti realiuoju laiku.
2.4 RTMPose preprocessing: nešališki duomenų apdorojimas (UDP)
Prieš suplanavintą vaizdą įvedant į RTMpose modelį, atliekamas nešališko duomenų apdorojimo (UDP) žingsnis. UDP sprendžia kritines šališkumo problemas RTMpose duomenų apdorojime mokymo ir testavimo metu, konkrečiai koordinačių sistemos ir raktinio taško formato transformacijose. Konvenciniuose žmogaus pozos nustatymo vamzdžiuose standartinės operacijos, tokios kaip apvertimas ir dydžio keitimas, dažnai nesiderina su išvestimis, ypač dėl pikselinių transformacijų, kurios sukelia tikslumą prarandančias problemas ir apverstų vaizdų nealignment. UDP tai koreguoja nustatydamas nešališkos koordinačių sistemos transformaciją, išsaugodama semantinį suderinimą skirtingose koordinačių erdvėse iš esmės atliekamų operacijų metu (apkarpymas, dydžio keitimas, sukimas, apvertimas). UDP taip pat prideda nešališkos raktinio taško formato transformacijos, užkoduodamas raktines taškus į šilumos žemėlapius be pozicijos šališkumo, toliau patobulinami Gauso skirstinio žinojimo dekoduojant procesą. Šis duomenų apdorojimo metodas sistemingai pagerina modelio produktyvumą, kaip parodyta ištestuose COCO ir CrowdPose datasets, kur pasiektas padidėjęs tikslumas ir sumažinta išvados latencija tiek top-down, tiek bottom-up modeliams [Ref].
3. Apdorojimas po pagrindinio etapo ir pozos tobulinimas
Kai tik raktiniai taškai yra nuspėti, taikomos kelios apdorojimo po pagrindinio etapo procedūros, skirtos pozos nustatymo numalšinimui ir stabilumui užtikrinti žemyn kadruose.
3.1 Pozos numalšinimas
Golfo svyravimai apima greitą judesį, kuris gali sukelti triukšmą arba svyravimus apskaičiuotuose raktinių taškų padėtyse keliuose kadruose. Taikant šiuos šaltiniai, One-Euro filtras pritaikomas raktinių taškų trajektorijoms numalšinti laikui bėgant, užtikrinant, kad maži, nefiziniai svyravimai raktinių taškų numatymuose būtų pašalinti. One-Euro filtras veikia dinamiškai prisitaikant filtro pralaidumui pagal judėjimo greitį, kuris yra idealus scenarijams, tokiems kaip golfo svyravimai, kur judesio greitis žymiai skiriasi skirtingose fazėse (atgalinis šūvis, žemyn švynejimas ir tąsa po smūgio).
3.2 kadro praleido mechanizmas
Tolesniam optimizavimui, kadro praleido mechanizmas yra taikomas, kai aptikimas atliekamas tik raktiniuose kadruose, o pozos nustatymas interpoliuojamas tarpiniamiems kadrams. Tai drastiškai sumažina skaičiavimo apkrovą, neprarandant tikslumo scenariuose su ribotu judesiu tarp kadrų, tokiuose kaip lėtas golfo svyravimo pertvaros-per-kadro žiūrėjimas.
4. Laikinasis sekimas ir sekos nuoseklumas
Atsižvelgiant į tai, kad golfo svyravimai iš esmės yra nuoseklūs, laikino nuoseklumo tinkavimas pozos nustatymo metu yra gyvybiškai svarbus. RTMPose-X tai sprendžia naudodamas laikinius sekimo metodus, kurie užtikrina, kad raktinių taškų numatymai būtų nuoseklūs iš eilės einančiuose kadruose. Tai apima raktinių taškų pozicijų sekimą laikui bėgant ir jų trajektorijų sekimą, kurie seka realistiškus judėjimo modelius, remiantis biomechanikiniais apribojimais.
4.1 Raktinio taško greitis ir pagreitis analizė
Be raktinių taškų pozicijų sekimo, RTMPose-X taip pat nustatinėja kiekvieno raktinio taško greitį ir pagreitį. Ši informacija yra kritiškai svarbi golfo svyravimo dinamikai analizuoti, suteikiant įžvalgą apie pagrindinius produktyvumo rodiklius, tokius kaip:
Šūvio greitis: apskaičiuojamas pagal riešo greitį žemyn švynejimo metu.
Šlauno rotacija: analizuojama per šlauno sąnario sukamąjį greitį.
Klubo trajektorija ir galvos greitis: nustatomi netiesiogiai iš riešo ir alkūnės trajektorijų.
Šios metrikos gali būti lyginamos su profesionaliais palyginimo taškai, siekiant suteikti grįžtamąjį ryšį apie žaidėjo svyravimo mechaniką.
5. Išvada ir realiojo laiko produktyvumas
Visas top-down metodas yra optimizuotas realiojo laiko produktyvumui, leidžiant pozos nustatyimą virš 90 FPS šiuolaikiškuose GPU. Aukštai efektyvių modelio architektūrų (CSPNeXt) ir greitų išvados metodų (SimCC) naudojimas užtikrina, kad sistema gali tvarkyti aukštos kadrų dažnio vaizdo įvestį, todėl tinka realiojo laiko grįžtamajam ryšiui mokymo sesijų metu.
6. Vertinimas ir patvirtinimas
RTMPose-X ir RTMDet-M modeliai yra įvertinti naudojant standartus dataset, tokius kaip COCO ir MPII, parodydami stiprų produktyvumą su vidutine tikslumu (AP) 75,8% COCO dataset kūno raktiniams taškams. Šie rezultatai yra patvirtinti palyginti su ground-truth anotacijomis golfo svyravimo duomenų rinkinius, užtikrindami modelio tvirumą dinamiškų sportinių judesių fiksavime.
6.1 Produktyvumo metrikos
Vidutinė kvadratinė paklaida (MSE): Naudojama raktinių taškų numatymo tikslumui palyginti su etalonais matuoti.
Vidutinis tikslumas (AP): Įvertina bendrą pozos nustatymo modelio produktyvumą.
Kadro apdorojimo laikas: Tiriamas norint užtikrinti, kad sistema atitinka realaus laiko reikalavimus (<10 ms per kadrą).
7. Išvada
Nuo viršaus žemyn metodas naudojant RTMPose-X ir RTMDet-M suteikia efektyvų ir tikslų realaus laiko pozos nustatymo būdą sporto analizėje, ypač golf šūvio analizei. Turėdamas patikimą raktinių taškų aptikimą, laiko sekimą ir realaus laiko išvadą, šis metodas suteikia išsamią golf šūvio dinamikos biomechanę informaciją, padedant pagerinti produktyvumą ir užkirsti kelią traumoms.
Šaltiniai
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] AI iššūkio dataset:
[] MS Coco dataset:
[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324
[] MPII dataset:
[] sub-JHMBD dataset:
[] Halpe dataset:
[] PoseTrack18 dataset:
Object365 duomenų bazė: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Paskutinį kartą atnaujinta: 2025-03-05 | Peržiūrėti oficialaus pagalbos svetainėje