Golfa un beisbola šūpoles markerless Motion Capture uzlabošana, izmantojot RTMPose un RTMDet: pieeja no augšas uz leju

Golfa un beisbola šūpoles markerless Motion Capture uzlabošana, izmantojot RTMPose un RTMDet: pieeja no augšas uz leju

Kopsavilkums

Šis tehniskais pārskats dokumentē RTMPose un RTMDet izmantošanu precīzai un efektīvai pozas novērtēšanai golfa un beisbola šūpolēs. Izmantojot avangardiskās metodes, kas optimizētas reālā laika veiktspējai, šie modeļi nodrošina detalizētu ķermeņa kustību izsekošanu golfa un beisbola šūpolēs — būtisku funkciju sporta analītikā veiktspējas uzlabošanai. Mēs izcēlam pieeja no augšas uz leju priekšrocības, kur standarta RTMDet detektors identificē golfisti un beisbola spēlētāju katrā kadrā, un RTMPose novērtē galveno ķermeņa locītavu pozīcijas.

1. Ievads

Pozas novērtēšana ir kļuvusi izšķiroša sporta veiktspējas analīzē, ļaujot precīzi izsekot sportista kustības. Golfā un beisbolā sportista šūpoles biomehānisko datu uztveršana sniedz vērtīgu ieskatu par šūpoles dinamiku, palīdzot profesionāļiem un amatieriem vienlīdz pilnveidot viņu paņēmienus. Tradicionālās 2D pozas novērtēšanas metodes bieži saskaras ar latentuma un precizitātes problēmām, īpaši reālā laika scenārijos. Šis raksts piedāvā risinājumu, izmantojot RTMPose un RTMDet mmpose Framework ietvaros detalizētai pozas novērtēšanai golfa un beisbola šūpolēs.

2. Pamatinformācija

Golfa un beisbola šūpoles sarežģītība prasa precīzu ķermeņa kustību mērīšanu. Esošās pozas novērtēšanas metodes var nesniegt nepieciešamo precizitāti reālā laika veiktspējai. Progres padziļinātajā mācībā un datora redzējumā ir ieviesis modeļus, piemēram, RTMPose un RTMDet, kas nodrošina uzlabotu precizitāti un efektivitāti.

3. Pieeja no augšas uz leju ar RTMdet un RTMpose

–insert figure–

3. RTMPose: augstas veiktspējas pozas novērtēšanas modelis

RTMPose [1] ir paredzēts augstas veiktspējas, reālā laika pozas novērtēšanai, optimizēts efektīvai darbībai ar ierobežotu aparatūru.

Galvenās funkcijas:

Modeļa arhitektūra un efektivitāte: RTMpose izmanto CSPNeXt kā tā mugurkaulu [1, 2], līdzsvarojot ātrumu un precizitāti. CSPNeXt ir optimizēts blīvas prognozēšanas uzdevumiem, piemēram, pozas novērtēšanai un objektu detektēšanai, nodrošinot augstu izšķirtspēju un precizitāti, vienlaikus saglabājot skaitļošanas efektivitāti.

Atslēgpunktu prognozēšana: izmanto SimCC balstītu algoritmu [1, 3], uzskatot atslēgpunktu horizontālās un vertikālās pozīcijas par atsevišķiem klasifikācijas uzdevumiem. Šis kompaktais attēlojums samazina skaitļošanas slodzi un ir piemērots dažādu ierīču izvietošanai.

4. RTMDet: detektēšanas mugurkauls

RTMDet [4] darbojas kā detektors, kas atrodas pirms RTMPose pieejā no augšas uz leju, identificējot golfista vai beisbola spēlētāja atrašanās vietu katrā kadrā.

Galvenās funkcijas:

Modeļa arhitektūra un efektivitāte: RTMDet izmanto modificētu CSPDarkNet versiju [5], kas ir trenējamāka un precīzāka nekā daudzi YOLO modeļi. Modificētā versija izmanto liela kodola dziļumvirzienus tilpnes konvolūcijas, lai līdzsvarotu sarežģītību un ātrumu, un ir efektīva gan GPU, gan CPU. Tas ir ideāls reālā laika lietojumprogrammām, piemēram, sporta veiktspējas izsekošanai.

Daudzpusība: apstrādā dažādus objektu detektēšanas uzdevumus, ieskaitant instance segmentāciju un pagrieztās objektu detektēšanu. Nodrošina precīzu spēlētāja lokalizēšanu pat dinamiskas ainas gadījumā.

5. RTMDet un RTMPose izmantošanas priekšrocības golfa un beisbola šūpoles analīzē

5.1 Augstāka precizitāte neslodzes ainas

Tipiskos golfa/beisbola apstākļos ar maz cilvēkiem kadrā, RTMDet izolē golfisti/beisbola spēlētāju, ļaujot RTMPose apstrādāt katru detektēto personu ar augstu precizitāti. Tas izvairās no apakšas uz augšu metožu sarežģītības, kas apstrādā visus atslēgpunktus visām personām kadrā vienlaikus. Pieeja no augšas uz leju var arī ietvert RTMdet pēcapstrādes algoritmu, identificējot pareizo personu (t.i., golfisti vai beisbola spēlētāju) pirms pozas novērtēšanas. Turklāt RTMPose ir iepriekš apmācīts paplašinātu attēlu materiālu komplektā, kas satur

5.2 Efektīva skaitļošana un reālā laika veiktspēja

Izmantojot vieglus modeļus, piemēram, RTMdet un RTMpose, tiek saglabāts zems latentums, nodrošinot reālā laika šūpoles analīzi patērētāju klases aparatūrā. Tas ir īpaši noderīgi, lai sniegtu tūlītēju tiešraides atsauksmes treniņu vai trenēšanas sesiju laikā. Swing Catalyst markerless motion capture sistēma ir viena no retajām studiju sistēmām, kas nodrošina tiešraides motion capture atsauksmes golfistiem un beisbola spēlētājiem.

5.3 Detalizēta atslēgpunktu analīze

RTMPose detektē 26 ķermeņa atslēgpunktu komplektu [6], kas parādīts zemāk esošajā 1. attēlā, kas ir būtisks golfa un beisbola šūpoles kinemātikas analīzei. Halpe26 ir paplašināts komplekts, kas ietver papildu marķierus uz pēdām un galvas salīdzinājumā ar standarta Coco komplektu, kurā ir 17 marķieri.

–Insert Figure–

6. Metodika golfa un beisbola šūpoles markerless Motion Capture

6.1 Detektēšanas fāze: RTMDet

Piemērojot golfista vai beisbola spēlētāja videokadriem, RTMDet ģenerē robežframūra lodziņus ap spēlētāju, kas tiek nodoti RTMPose. Tas fokusē pozas novērtēšanu uz attiecīgiem attēla reģioniem, samazinot skaitļošanas slodzi.

–Insert Image–

6.2 Pozas novērtēšanas fāze: RTMPose

RTMPose novērtē atslēgpunktu pozīcijas robežframūra lodziņā. Kritiskas locītavas golfa un beisbola šūpoles analīzei ietver plauksta locītavas, elkoni, plecos, gurņus un ceļgali. Šie atslēgpunkti novērtē ķermeņa leņķus un pozīcijas šūpoles fāzēs: atpakaļsvings, lejup svings un turpinājums.

–Insert Image–

6.3 Veiktspējas metrikas

RTMPose vispārīgo veiktspēju mēra metrikas, piemēram, vidējā precizitāte (AP), izmantojot pozas novērtēšanas etalons, piemēram, MS COCO. Zemāk ir labāk rangu modeļu veiktspēja parasti izmantotajā Coco etalons. MS COCO val datu kopā RTMPose-X ir labākais darbības modelis, kas spēj sniegt reālā laika atsauksmes un sasniedz līdz 75,8% AP ar kadru ātrumiem, kas pārsniedz ?? FPS patērētāju klases GPU, padarot to piemērotu augstā ātruma sporta analīzei.

Vieta Modelis Izšķirtspēja Lielums/parametri (miljoni) AP Reālā laika secinājumi

1 Sapiens-2B 1024x768 2000 82.2 Nē

2 Sapiens-1B 1024x768 1000 82.1 Nē

3 Sapiens-0.6B 1024x768 600 81.2 Nē

4 Sapiens-0.3B 1024x768 300 79.6 Nē

5 VitPose-H 256x192 632 79.4 Nē

6 RTMPose-X 384x288 49 78.8

7 VitPose-L 256x192 307 78.6 Nē

8 RTMPose-L 384x288 28 78.3 Jā

9 HRFormer 256x192 43 77.2 Nē

10 HRNet-UDP 384x288 64 77.2 Jā

11 VitPose-B 256x192 86 77.0 Jā

12 RTMPose-L 256x198 28 76.7 Jā

13 RTMPose-M 384x288 14 76.6 Jā

14 HRNet 384x288 64 76.3 Jā

15 VitPose-S 256x192 43 75.8 Jā

16 RTMPose-M 256x192 14 74.9 Jā

17 SimpleBaseline 256x192 60 73.5 Jā

18 FastPose 256x192 79 73.3 Jā

7. Pielietojums golfa svinga analīzē

Piemērojot RTMPose-X un RTMDet-M ietvaru:

Izsekot locītavu kustības kadrs pēc kadra: Sniedz visaptverošus datus katra svinga fāzes analīzei.

Sniegt reāllaika atsauksmes: Ļauj iegūt tūlītējus ieskatus svinga stājas un formas par apmācības seansiem.

Salīdzināt ar ideālo mehāniku: Ļauj salīdzināt ar ideālo svinga kinemātiku, lai identificētu uzlabojuma jomas.

8. Secinājumi

RTMPose-X un RTMDet-M integrācija piedāvā spēcīgu risinājumu reāllaika golfa svinga analīzei. Ar augstu precizitāti, zemu latenci un saderību dažādās aparatūras platformās, šī pieeja no augšas uz leju sniedz detalizētus ieskatus svinga mehānikā. Tai ir nozīmīgs potenciāls palīdzēt gan amatieru, gan profesionāļu golfistu veiktspējas uzlabošanai.

9. Nākotnes darbi

Nākotnes attīstības varētu ietvert:

Mašīnmācīšanās algoritmu integrāciju: Lai sniegtu prognostiskas analītikas un ieteikumus svinga efektivitātes uzlabošanai.

Paplašināšanu uz multi-personu scenārijiem: Uzlabojot pielietojamību komandu sportos vai grupas apmācības vidē.

Lietotāju-draudzīga saskarnes izstrāde: Izveidojot lietotnēs vai rīkus, kas padara šo tehnoloģiju pieejamu treneriem un sportistiem bez tehniskām zināšanām.

Pielikums

Detalizēta metodika: pieeja no augšas uz leju golfa svinga pozas novērtēšanai, izmantojot RTMPose-X un RTMDet-M

Pārskats

Šeit aprakstītā metodika izklāsta detalizētās darbības, kas saistītas ar pieeja no augšas uz leju reāllaika pozas novērtēšanai golfa un beisbola svingam, izmantojot RTMPose stiprās puses atslēgpunktu lokalizācijai un RTMDet objektu detektēšanai.Process ir sadalīts vairākos posmos: detektēšana, atslēgpunktu lokalizācija un pēcapstrāde, no kuriem katrs iegulst ķermeņa locītavu precīzā un efektīvā novērtēšanā golfa svingā biomehāniskai analīzei.

–Ievietot attēlu–

1. Detektēšanas fāze: reāllaika lokalizācija ar RTMDet-M

Pieeja no augšas uz leju pirmais posms ietver golfista detektēšanu katrā video kadrā. Sporta scenārijumos, īpaši golfā, ainā parasti ir viens spēlētājs, kas vienkāršo detektēšanas uzdevumu salīdzinājumā ar pūļa scenārijiem.

1.1 Modeļa arhitektūra

RTMDet-M tiek izmantots kā objektu detektors cauruļvadā. Tas izmanto konvolūcijas neirālo tīklu (CNN) mugurkaulu, īpaši CSPNeXt mugurkauli, kas paredzēts reāllaika objektu detektēšanas veiktspējas optimizācijai, vienlaikus uzturot līdzsvaru starp ātrumu un precizitāti. Galvenie arhitektūras aspekti ietver:

Lielas kodola dziļuma-virzienā konvolūcijas: Tās tiek izmantotas mugurkaula un kakla slāņos, palielinot receptīvo lauku, vienlaikus saglabājot zemas skaitļošanas izmaksas.

Iezīmju piramīdas tīkls (FPN): Multi-skales iezīmju ekstrakcijas paņēmiens, kas ļauj detektēt objektus dažādos skalos, nodrošinot, ka golfists var tikt detektēts neatkarīgi no viņa attāluma no kameras.

1.2 Dinamisks etiķešu piešķiršana

RTMDet-M izmanto dinamiskas etiķešu piešķiršanas stratēģiju, kas uzlabo detektēšanas precizitāti, piešķirot mīkstas etiķetes objektiem, pamatojoties uz klasifikācijas un lokalizācijas zaudējuma kombināciju. Etiķešu piešķiršanu vadīja SimOTA algoritms, kas dinamiski atlasa pozitīvus paraugus, pamatojoties uz viņu varbūtību atbilst patiesajam objektam. Šis paņēmiens nodrošina robusta detektēšanu mainīgos gaismas un vides apstākļos, kuri bieži tiek konstatēti ārējās golfa ainavās.

1.3 Robežframūra lodziņa prognozēšana

Detektors izvada Robežframūra lodziņus, kas ieskauj golfisti katrā kadrā. Šie Robežframūra lodziņi nodrošina telpiskos ierobežojumus, kuros darbosies pozas novērtēšanas modelis, samazinot skaitļošanas slodzi uz nākamās pozas novērtēšanas fāzes, fokusējoties tikai uz attiecīgajiem kadra apgabaliem. Šajā kontekstā RTMDet-M ģenerē Robežframūra lodziņus reāllaikā ar ātrumu virs 300 FPS uz augstperfomances aparatūras, nodrošinot, ka tas var sekot golfa svinga ātrajām dinamikām.

1.4 Personas ne-maksimālā supresija (NMS)

Vairāku personu scenārijiem (lai arī reti golfa svinga analīzē) RTMDet-M iekļauj Pozas Ne-maksimālo supresiju (NMS) algoritmu, kas novērš redundantus atslēgpunktu atklājumus, nodrošinot, ka tiek saglabāti tikai pārliecinošākie atklājumi visiem. Tas ir kritisks gadījumos, kad pārklājoši Robežframūra lodziņi varētu tikt atklāti pārpildītās ainas vai video sekvencēs.

1.5 Apmācības Dataset un Veiktspēja

RTMDet-M ir apmācīts binārajā klasifikācijas uzdevumā uz personu instancēm Object356 dataset.

2. Pozas novērtēšanas fāze: RTMPose-X Atslēgpunkta lokalizācija

Tiklīdz golfista Robežframūra lodziņš ir izveidots, nākamā fāze ietver precīzas galveno ķermeņa locītavu atrašanās vietas noteikšanu šajā reģionā. Šim nolūkam tiek izmantots RTMPose-X, augstperfomances pozas novērtēšanas modelis.

2.1 SimCC balstīta atslēgpunkta lokalizācija

RTMPose-X izmanto SimCC (Simple Coordinate Classification) algoritmu, kas atslēgpunkta lokalizāciju uztver kā klasifikācijas problēmu. Atšķirībā no tradicionālajām siltumkartes metodēm, SimCC sadala katra atslēgpunkta x un y koordinātes kastēs un klasificē tieši to kasti, kurā atrodas katrs atslēgpunkts. Šī pieeja ievērojami samazina skaitļošanas sarežģītību un uzlabo secinājuma ātrumu, vienlaikus saglabājot augstu precizitāti cilvēka pozas novērtēšanas uzdevumiem.

2.2 CSPNeXt Backbone

Līdzīgi RTMDet-M, RTMPose-X arī izmanto CSPNeXt backbone, kas ir pielāgots blīvai prognozēšanai, piemēram, pozas novērtēšanai. CSPNeXt backbone ir priekšrocīgs šajā scenārijā šādu iemeslu dēļ:

Viegla arhitektūra: Modeļa arhitektūra ir izstrādāta, lai samazinātu parametru skaitu un maksimālu produktivitāti, padarot to ideālu reāllaika lietojumprogrammām.

Efektīva pazīmju ieguve: CSPNeXt pazīmju ieguve slāņi ir optimizēti augstizšķirtspējas attēlu apstrādei, kas ir svarīgi, lai noteiktu sīkus detaļus ātri kustīgajās ķermeņa daļās golfa svinga laikā, piemēram, plaukstas locītavās, elkos un ceļgaļos.

2.3 Atslēgpunkta pārstāvniecība

RTMPose-X izvada atslēgpunktu atrašanās vietas visiem attiecīgajiem ķermeņa daļām, ieskaitant:

Augšķermeņa locītavas: pleci, elkoni, plaukstas locītavas un kakls

Apakšējā ķermeņa locītavas: gurņi, ceļgali un potītes

Papildu locītavas: galva, mugurkauls un citi galvenie punkti, kas ir atbilstoši svinga analīzei

384x288 ievades attēlu izšķirtspēja nodrošina, ka pat smalki locītavu kustības tiek uztvertas precīzi, vienlaikus saglabājot sistēmas spēju darbināties reāllaikā.

2.4 RTMPose priekšapstrāde: Objektīva datu apstrāde (UDP)

Pirms apgrieztā attēla ievadīšanas RTMPose modelī tiek veikts Objektīvas datu apstrādes (UDP) solis. UDP risina kritiskas novirzes RTMPose datu apstrādē apmācības un testēšanas laikā, it īpaši koordinātu sistēmas un atslēgpunkta formāta transformācijās. Parastajās cilvēka pozas novērtēšanas cauruļvados standarta operācijas, piemēram, apgriešana un izmēra maiņa, bieži vien nepareizi izlīdzina rezultātus, jo īpaši pikseļu transformāciju dēļ, kas izraisa precizitātes zudumu un apgriestu attēlu neatbilstību. UDP to laboja, izveidojot objektīvu koordinātu sistēmas transformāciju, saglabājot semantisko izlīdzinājumu dažādās koordinātu telpās būtiskas operācijas (apgriešana, izmēra maiņa, rotācija, apgriešana) laikā. UDP arī ievieš objektīvu atslēgpunkta formāta transformāciju, kodējot atslēgpunktus siltumkartēs bez pozīcijas novirzes, tālāk refinētu ar Gausa sadalījuma apzinātu dekodēšanas procesu. Šī datu apstrādes pieeja sistēmiski uzlabo modeļa veiktspēju, kā parādīts plašos COCO un CrowdPose dataset testos, kur tas sasniedza uzlabotu precizitāti un samazinātu secinājuma latenci visā top-down un bottom-up modeļos [Ref].

3. Pēcapstrāde un pozas refinēšana

Tiklīdz atslēgpunkti ir prognozēti, tiek veikti vairāki pēcapstrādes soļi, lai refinētu pozas novērtēšanu un nodrošinātu stabilitāti starp kadriem.

3.1 Pozas izlīdzināšana

Golfa svingi ietver straujos kustības, kas var ieviest troksni vai svārstības novērtētajās atslēgpunkta pozīcijās starp kadriem. To mazināšanai tiek lietots Viena-Eiro filtrs, lai izlīdzinātu atslēgpunkta trajektorijas laika gaitā, nodrošinot, ka mazie, nefizikāli atslēgpunkta prognozēšanas svārstību svārstības tiek novērstas. Viena-Eiro filtrs darbojas, dinamiski pielāgojot filtra joslas platumu atkarībā no kustības ātruma, kas ir ideāli scenārijiem, piemēram, golfa svingi, kur kustības ātrums krasi atšķiras dažādās fāzēs (atpakaļsvings, lejup svings un turpinājums).

3.2 Kadru palaišanas mehānisma

Tālākai optimizācijai tiek ieviests kadru palaišanas mehānisms, kurā detektēšana tiek veikta tikai galvenajos kadros, un pozas novērtēšana tiek interpolēta starpposma kadriem. Tas strauji samazina skaitļošanas slodzi bez precizitātes zaudēšanas scenārijiem ar ierobežotu kustības starp kadriem, piemēram, golfa svinga lēnās analīzes gadījumā.

4. Temporālā izsekošana un sekvences konsekvence

Ņemot vērā, ka golfa svingi pēc būtības ir secīgi, temporālās konsekvences uzturēšana pozas novērtēšanā ir būtiska. RTMPose-X to risina, izmantojot temporālas izsekošanas paņēmienus, kas nodrošina, ka atslēgpunktu prognozes ir konsekventes secīgos kadros. Tas ietver atslēgpunktu pozīciju izsekošanu laika gaitā un nodrošināšanu, ka to trajektorijas seko reālistiskām kustības modeļiem, pamatojoties uz biomehāniskiem ierobežojumiem.

4.1 Atslēgpunkta ātruma un paātrinājuma analīze

Papildus atslēgpunktu pozīciju izsekošanai, RTMPose-X arī novērtē katra atslēgpunkta ātrumu un paātrinājumu. Šī informācija ir kritiski svarīga golfa svinga dinamikas analīzei, sniedzot ieskatu galvenajos veiktspējas mērogos, piemēram:

Svinga ātrums: Aprēķināts pamatojoties uz plaukstas locītavas ātrumu lejup svinga laikā.

Gurņa rotācija: Analizēta caur gurņa locītavu rotācijas leņķisko ātrumu.

Nūjas trajektorija un galvas ātrums: Secinami netieši no plaukstas locītavas un elkoņa trajektorijām.

Šos mērogus var salīdzināt ar profesionāļu etalondatiem, lai sniegtu atsauksmes par spēlētāja svinga mehāniku.

5. Secinājumi un reāllaika veiktspēja

Visa top-down pipeline ir optimizēta reāllaika veiktspējai, ļaujot pozas novērtēšanu ar ātrumu virs 90 FPS uz mūsdienu GPU. Ļoti efektīvu modeļa arhitektūru (CSPNeXt) un ātru secinājumu paņēmienu (SimCC) lietošana nodrošina, ka sistēma var apstrādāt augsta kadru ātruma video ievadi, padarot to piemērotu reāllaika atsauksmei apmācības sesiju laikā.

6. Novērtēšana un validācija

RTMPose-X un RTMDet-M modeļi tiek novērtēti standarta dataset, piemēram, COCO un MPII, parādot spēcīgu veiktspēju ar vidējo precizitāti (AP) 75,8% uz COCO dataset ķermeņa atslēgpunktiem. Šie rezultāti tiek validēti salīdzinājumā ar ground-truth anotācijām golfa svinga datasetos, nodrošinot modeļa robustumu dinamisko sporta kustību uztveršanā.

6.1 Veiktspējas metrikas

Mean Squared Error (MSE): Tiek izmantots, lai kvantitatīvi novērtētu atslēgpunktu prognožu precizitāti salīdzinājumā ar zemes patiesības anotācijām.

Average Precision (AP): Novērtē pozas novērtēšanas modeļa kopējo veiktspēju.

Kadra apstrādes laiks: Etalons, lai nodrošinātu, ka sistēma atbilst reālā laika prasībām (<10 ms par kadru).

7. Secinājums

Pieeja no augšas uz leju, izmantojot RTMPose-X un RTMDet-M, nodrošina efektīvu un precīzu metodi reālā laika pozas novērtēšanai sporta analitikā, īpaši golfa šūpoles analīzei. Ar noturīgu atslēgpunktu detektēšanu, laika sekošanu un reālā laika secinājumiem, šī metodika sniedz detalizētas biomehāniskas ieskatas golfa šūpoles dinamikā, palīdzot uzlabot veiktspēju un novērst traumas.

Atsauces

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI izaicinājuma dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset:

[] Halpe dataset:

[] PoseTrack18 dataset:

Object365 datu bāze: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf

Pēdējoreiz atjaunināts: 2025-03-05 | Skatīt oficiālajā atbalsta vietnē