Îmbunătățirea Capturii de Mișcare fără Markeri pentru Swing-ul de Golf și Baseball Folosind RTMPose și RTMDet: O Abordare de Sus în Jos

Îmbunătățirea Capturii de Mișcare fără Markeri pentru Swing-ul de Golf și Baseball Folosind RTMPose și RTMDet: O Abordare de Sus în Jos

Rezumat

Acest document tehnic documentează aplicarea RTMPose și RTMDet pentru estimare precisă și eficientă a poziției swing-ului de golf și baseball. Valorificând tehnici de vârf optimizate pentru performanță în timp real, aceste modele permit urmărirea detaliată a mișcărilor corpului în timpul swing-ului de golf și baseball—o caracteristică critică pentru îmbunătățirea performanței în analitică sportivă. Evidențiem avantajele unei abordări de sus în jos, în care un detector RTMDet gata de utilizare identifică golfistul și jucătorul de baseball în fiecare cadru, iar RTMPose estimează pozițiile punctelor cheie ale corpului.

1. Introducere

Estimarea poziției a devenit esențială în analiza performanței sportive, permițând urmărirea precisă a mișcărilor sportivilor. În golf și baseball, capturarea datelor biomecanice ale swing-ului unui jucător oferă perspective valoroase asupra dinamicii swing-ului, ajutând profesioniștii și amatoririi să-și rafineze tehnicile. Metodele tradiționale de estimare a poziției 2D se confruntă adesea cu provocări de latență și acuratețe, în special în scenarii în timp real. Această lucrare propune o soluție folosind RTMPose și RTMDet în cadrul framework-ului mmpose Framework pentru estimare detaliată a poziției în timpul swing-ului de golf și baseball.

2. Context

Complexitatea swing-ului de golf și baseball necesită măsurarea precisă a mișcărilor corpului. Metodele existente de estimare a poziției pot să nu ofere acuratețea necesară pentru performanță în timp real. Progresele în deep learning și computer vision au introdus modele precum RTMPose și RTMDet, care oferă acuratețe și eficiență îmbunătățite.

3. Abordare de sus în jos cu RTMdet și RTMpose

–insert figure–

3. RTMPose: Un Model de Estimare a Poziției cu Performanță Înaltă

RTMPose [1] este proiectat pentru estimare de poziție cu performanță înaltă și în timp real, optimizat pentru a rula eficient pe hardware limitat.

Caracteristici cheie:

Arhitectura modelului și eficiență: RTMpose utilizează CSPNeXt ca backbone [1, 2], echilibrând viteza și acuratețea. CSPNeXt este optimizat pentru sarcini de predicție densă, cum ar fi estimarea poziției și detectarea obiectelor, oferind rezoluție înaltă și precizie, menținând în același timp eficiență computațională.

Predicție puncte cheie: Utilizează un algoritm bazat pe SimCC [1, 3], tratând pozițiile orizontale și verticale ale punctelor cheie ca sarcini de clasificare separate. Această reprezentare compactă reduce încărcarea computațională și se potrivește implementării pe diverse dispozitive.

4. RTMDet: Backbone-ul de Detectare

RTMDet [4] acționează ca detector care precede RTMPose în pipeline-ul de sus în jos, identificând locația golfistului sau jucătorului de baseball în cadrul fiecărui cadru.

Caracteristici cheie:

Arhitectura modelului și eficiență: RTMDet utilizează o versiune modificată a CSPDarkNet [5] mai antrenabilă și mai precisă decât multe dintre modelele YOLO. Versiunea modificată valorifică convoluții depth-wise cu kernel mare pentru a echilibra complexitatea și viteza și este eficientă atât pe GPU cât și pe CPU. Este ideală pentru aplicații în timp real, cum ar fi urmărirea performanței sportive.

Versatilitate: Gestionează diverse sarcini de detectare a obiectelor, inclusiv segmentare de instanță și detectare de obiecte rotite. Asigură localizare precisă a jucătorului, chiar și în scenarii dinamice.

5. Avantajele utilizării RTMDet și RTMPose în Analiza Swing-ului de Golf și Baseball

5.1 Acuratețe mai înaltă în scene neaglomerate

În setări tipice de golf/baseball cu puțini indivizi în cadru, RTMDet izolează golfistul/jucătorul de baseball, permițând RTMPose să proceseze fiecare persoană detectată cu acuratețe înaltă. Acest lucru evită complexitatea metodelor bottom-up care procesează toate punctele cheie pentru toți indivizii din cadru simultan. Abordarea de sus în jos poate include, de asemenea, algoritm de post-procesare al RTMdet identificând persoana corectă (adică golfistul sau jucătorul de baseball) înainte de efectuarea estimării poziției. În plus, RTMPose a fost pre-antranat pe material de imagini extinse care conține

5.2 Calcul eficient și performanță în timp real

Utilizând modele ușoare, cum ar fi RTMdet și RTMpose, se menține latență redusă, permițând analiza swing-ului în timp real pe hardware de consum. Acest lucru este deosebit de util pentru furnizarea de feedback live imediat în timpul sesiunilor de coaching sau antrenament. Sistemul de capturare de mișcare fără markeri Swing Catalyst este unul dintre puținele sisteme de studio care oferă feedback de capturare de mișcare live golfistilor și jucătorilor de baseball.

5.3 Analiză detaliată a punctelor cheie

RTMPose detectează o configurație de 26 puncte cheie ale corpului [6] afișate în figura 1 mai jos, esențiale pentru analiza cinematicii swing-ului de golf și baseball. Halpe26 este o configurație extinsă care include markeri suplimentari pe picioare și cap, comparativ cu configurația Coco mai standard cu 17 markeri.

–Insert Figure–

6. Metodologie pentru Capturare de Mișcare fără Markeri în Swing-ul de Golf și Baseball

6.1 Faza de detectare: RTMDet

Aplicat cadrelor video ale unui golfist sau jucător de baseball, RTMDet generează casete de delimitare în jurul jucătorului, care sunt transmise la RTMPose. Aceasta focalizează estimarea poziției pe regiuni de imagine relevante, reducând încărcarea computațională.

–Insert Image–

6.2 Faza de estimare a poziției: RTMPose

RTMPose estimează pozițiile punctelor cheie în cadrul casetei de delimitare. Articulațiile critice pentru analiza swing-ului de golf și baseball includ încheieturi ale mâinilor, coți, umeri, șolduri și genunchi. Aceste puncte cheie evaluează unghiurile corpului și pozițiile în fazele swing-ului: înapoi în mișcare, balansul descendent și continuare.

–Insert Image–

6.3 Metrici de performanță

Performanța generală a RTMPose este măsurată folosind metrici precum Average Precision (AP) pe benchmark-uri de estimare a poziției, cum ar fi MS COCO. Mai jos se află performanța modelelor cu cel mai bun rang pe benchmark-ul Coco folosit în mod obișnuit. Pe setul de validare MS COCO, RTMPose-X este modelul cu cea mai bună performanță capabil să ofere feedback în timp real și realizează până la 75.8% AP cu frecvențe cadru depășind ?? FPS pe GPU-uri de consum, ceea ce o face potrivită pentru analiza sportivă la viteză înaltă.

Rang Model Rezoluție Mărime/parametri (Mil) AP Inferență în timp real

1 Sapiens-2B 1024x768 2000 82.2 Nu

2 Sapiens-1B 1024x768 1000 82.1 Nu

3 Sapiens-0.6B 1024x768 600 81.2 Nu

4 Sapiens-0.3B 1024x768 300 79.6 Nu

5 VitPose-H 256x192 632 79.4 Nu

6 RTMPose-X 384x288 49 78.8 Da

7 VitPose-L 256x192 307 78.6 Nu

8 RTMPose-L 384x288 28 78.3 Da

9 HRFormer 256x192 43 77.2 Nu

10 HRNet-UDP 384x288 64 77.2 Da

11 VitPose-B 256x192 86 77.0 Da

12 RTMPose-L 256x198 28 76.7 Da

13 RTMPose-M 384x288 14 76.6 Da

14 HRNet 384x288 64 76.3 Da

15 VitPose-S 256x192 43 75.8 Da

16 RTMPose-M 256x192 14 74.9 Da

17 SimpleBaseline 256x192 60 73.5 Da

18 FastPose 256x192 79 73.3 Da

7. Aplicație în Analiza Swing-ului de Golf

Prin aplicarea framework-ului RTMPose-X și RTMDet-M:

Urmăriți Mișcările Articulațiilor Cadru după Cadru: Oferă date cuprinzătoare pentru analiza fiecărei faze a swing-ului.

Furnizați Feedback în Timp Real: Permite obținerea de perspective imediate asupra posturii și formei swing-ului în timpul sesiunilor de antrenament.

Comparați cu Mecanica Ideală: Permite comparația cu cinematica ideală a swing-ului pentru a identifica zonele de îmbunătățire.

8. Concluzie

Integrarea RTMPose-X și RTMDet-M oferă o soluție puternică pentru analiza swing-ului de golf în timp real. Cu precizie ridicată, latență scăzută și compatibilitate pe diverse platforme hardware, această abordare de sus în jos oferă perspective detaliate asupra mecanicii swing-ului. Are un potențial semnificativ pentru a ajuta atât golfistii amatori, cât și pe cei profesioniști să-și îmbunătățească performanța.

9. Lucrări Viitoare

Dezvoltările viitoare ar putea implica:

Integrarea Algoritmilor de Învățare Automată: Pentru a furniza analize predictive și a sugera ajustări pentru îmbunătățirea eficienței swing-ului.

Extinderea la Scenarii cu Mai Multe Persoane: Îmbunătățirea aplicabilității în sporturi de echipă sau medii de antrenament de grup.

Dezvoltarea unei Interfețe Ușor de Utilizat: Crearea de aplicații sau instrumente care fac această tehnologie accesibilă antrenorilor și sportivilor fără cunoștințe tehnice.

Anexă

Metodologie Detaliată: Abordare de Sus în Jos pentru Estimarea Poziției Swing-ului de Golf Utilizând RTMPose-X și RTMDet-M

Prezentare Generală

Metodologia descrisă aici prezintă pașii detaliați implicați într-o abordare de sus în jos pentru estimarea poziției în timp real a unui swing de golf și baseball, aprovechând punctele forte ale RTMPose pentru localizarea punctelor cheie și RTMDet pentru detectarea obiectelor. Procesul este împărțit în mai multe etape: detectare, localizare puncte cheie și post-procesare, fiecare contribuind la estimarea precisă și eficientă a articulațiilor corpului în swing-ul de golf pentru analiza biomecanic.

–Inserați imagine–

1. Faza de Detectare: Localizare în Timp Real cu RTMDet-M

Prima etapă a abordării de sus în jos implică detectarea golfistului în fiecare cadru al videoclipului. În scenariile sportive, în special în golf, scena constă de obicei dintr-un singur jucător, simplificând sarcina de detectare în comparație cu scenele cu mulțimi.

1.1 Arhitectura Modelului

RTMDet-M este folosit ca detector de obiecte în conductă. Folosește o rețea neurală convoluțională (CNN) cu backbone CSPNeXt, concepută pentru a optimiza performanța detectării obiectelor în timp real, menținând în același timp echilibrul între viteză și precizie. Aspectele cheie ale arhitecturii includ:

Convoluții depthwise cu kernel mare: Acestea sunt utilizate în straturile backbone și neck, crescând câmpul receptiv, menținând în același timp costul computațional redus.

Rețea piramidă de caracteristici (FPN): O tehnică de extracție de caracteristici multi-scară care permite detectarea obiectelor la diferite scale, asigurând că golfistul poate fi detectat indiferent de distanța acestuia de cameră.

1.2 Atribuire de Etichetă Dinamică

RTMDet-M valorifică o strategie de atribuire de etichetă dinamică care îmbunătățește acuratețea detectării prin atribuirea de etichet moi obiectelor pe baza unei combinații de pierdere de clasificare și localizare. Atribuirea etichetei este guvernată de algoritmul SimOTA, care selectează dinamic eșantioane pozitive pe baza probabilității lor de a se potrivi cu obiectul de referință. Această metodă asigură detectare robustă în condiții variabile de iluminare și mediu întâlnite adesea în scenele de golf în aer liber.

1.3 Predicția Casetei de Delimitare

Detectorul generează Casete de Delimitare care înconjoară golfistul în fiecare cadru. Aceste Casete de Delimitare oferă constrângeri spațiale în cadrul cărora va funcționa modelul de estimare a poziției, reducând sarcina computațională a fazei următoare de estimare a poziției prin focalizare doar pe zonele relevante ale cadrului. În acest context, RTMDet-M generează Casete de Delimitare în timp real cu peste 300 FPS pe hardware-ul de înaltă performanță, asigurând că poate ține pasul cu dinamica rapidă a unui swing de golf.

1.4 Suprimarea Non-Maximă a Persoanei (NMS)

În scenarii cu mai multe persoane (deși rare în analiza swing de golf), RTMDet-M încorporează un algoritm de Suprimare Non-Maximă (NMS) a poziției care elimină detectările redundante de puncte cheie, asigurând că doar detectările cu cea mai mare încredere sunt reținute pentru toată lumea. Acest lucru este crucial în cazurile în care Casete de Delimitare suprapuse ar putea fi detectate în scene aglomerate sau secvențe video.

1.5 Dataset pentru Antrenament și Performanță

RTMDet-M este antrenat pe o sarcină de clasificare binară pe instanțele de persoane din dataset-ul Object356.

2. Faza de Estimare a Poziției: Localizare Puncte Cheie RTMPose-X

Odată ce Caseta de Delimitare pentru golfist a fost stabilită, faza următoare implică estimarea locației precise a articulațiilor corpului cheie din această regiune. RTMPose-X, un model de estimare a poziției de înaltă performanță, este utilizat în acest scop.

2.1 Localizare Puncte Cheie Bazată pe SimCC

RTMPose-X folosește algoritmul SimCC (Clasificarea Coordonatelor Simple), care tratează localizarea punctelor cheie ca o problemă de clasificare. Spre deosebire de metodele tradiționale bazate pe hărți de căldură, SimCC împarte coordonatele x și y ale fiecărui punct cheie în compartimente și clasifică compartimentul exact în care se află fiecare punct cheie. Această abordare reduce semnificativ complexitatea computațională și îmbunătățește viteza de inferență, menținând în același timp o precizie ridicată pentru sarcinile de estimare a poziției umane.

2.2 Backbone CSPNeXt

Similar cu RTMDet-M, RTMPose-X folosește de asemenea backbone-ul CSPNeXt, care este adaptat pentru sarcini de predicție densă, cum ar fi estimarea poziției. Backbone-ul CSPNeXt este avantajos în acest scenariu din următoarele motive:

Arhitectură ușoară: Arhitectura modelului este proiectată pentru a minimiza numărul de parametri, maximizând în același timp throughput-ul, ceea ce o face ideală pentru aplicații în timp real.

Extracția eficientă de caracteristici: Straturile de extracție a caracteristicilor CSPNeXt sunt optimizate pentru a procesa imagini cu rezoluție înaltă, ceea ce este crucial pentru detectarea detaliilor mici din părți corpului care se mișcă rapid în timpul unui swing de golf, cum ar fi încheieturile mâinilor, coturile și genunchii.

2.3 Reprezentarea Punctelor Cheie

RTMPose-X generează locații de puncte cheie pentru toate părțile corpului relevante, inclusiv:

Articulații Corp Superior: umeri, coturi, încheieturile mâinilor și gât

Articulații Partea Inferioară a Corpului: șolduri, genunchi și glezne

Articulații suplimentare: cap, coloană vertebrală și alte puncte cheie relevante pentru analiza swing

Rezoluția de 384x288 pentru imaginile de intrare asigură că chiar și mișcările subtile din articulații pot fi capturate cu precizie, menținând în același timp capacitatea sistemului să funcționeze în timp real.

2.4 Pre-procesare RTMPose: Prelucrare Nepărtinitoare a Datelor (UDP)

Înainte ca imaginea decupată să fie introdusă în modelul RTMpose, se realizează un pas de Prelucrare Nepărtinitoare a Datelor (UDP). UDP abordează prejudecăți critice în prelucrarea datelor RTMpose în timpul antrenamentului și testării, în special în transformări de Sistem de Coordonate și format de puncte cheie. În conductele convenționale de estimare a poziției umane, operațiile standard, cum ar fi răsturnarea și redimensionarea, adesea dezalinează ieșirile, în special din cauza transformărilor bazate pe pixeli, ceea ce duce la pierderi de precizie și dezaliniere a imaginilor răsturnate. UDP corectează acestea prin stabilirea unei transformări nepărtinitoare a Sistemului de Coordonate, păstrând aliniere semantică între spații de coordonate diferite în timpul operațiilor esențiale (decupare, redimensionare, rotație, răsturnare). UDP introduce de asemenea transformare nepărtinitoare a formatului de puncte cheie prin codificarea punctelor cheie în hărți de căldură fără a introduce prejudecată pozițională, rafinată în continuare printr-un proces de decodare conștient de distribuție Gaussiană. Această abordare a prelucrării datelor îmbunătățește sistematic performanța modelului, așa cum se arată în teste extinse pe dataset-uri COCO și CrowdPose, unde a atins o precizie îmbunătățită și latență de inferență redusă pe modele top-down și bottom-up [Ref].

3. Post-procesare și Rafinare de Poziție

Odată ce punctele cheie sunt prezise, se aplică mai mulți pași de post-procesare pentru a rafina estimarea poziției și a asigura stabilitate pe cadre.

3.1 Netezire de Poziție

Swing-urile de golf implică mișcare rapidă, care poate introduce zgomot sau fluctuații în pozițiile estimate ale punctelor cheie de-a lungul cadrelor. Pentru a atenua acest lucru, se aplică un Filtru One-Euro pentru a netezi traiectoriile punctelor cheie în timp, asigurând că mici fluctuații non-fizice în predicțiile punctelor cheie sunt eliminate. Filtrul One-Euro funcționează prin ajustarea dinamică a lățimii de bandă a filtrului pe baza vitezei mișcării, ceea ce este ideal pentru scenarii precum swing-urile de golf, unde mișcarea variază semnificativ în viteză pe diferite faze (Înapoi în Mișcare, Balansul Descendent și Continuare).

3.2 Mecanism de Salt de Cadre

Pentru optimizare suplimentară, se implementează un mecanism de salt de cadre, unde detectarea se realizează numai pe cadre-cheie, iar estimarea poziției este interpolată pentru cadre intermediare. Aceasta reduce drastic sarcina computațională fără a sacrifica precizia în scenarii cu mișcare limitată între cadre, cum ar fi analiza în slowmotion a unui swing de golf.

4. Urmărire Temporală și Consistență de Secvență

Având în vedere că swing-urile de golf sunt în esență secvențiale, menținerea consistenței temporale în estimarea poziției este vitală. RTMPose-X abordează acest lucru prin tehnici de urmărire temporală, care asigură că predicțiile punctelor cheie sunt consistente pe cadre consecutive. Aceasta implică urmărirea pozițiilor punctelor cheie în timp și asigurarea că traiectoriile lor urmează modele realiste de mișcare pe baza constrângerilor biomecanice.

4.1 Analiză de Viteză și Accelerație a Punctelor Cheie

Pe lângă urmărirea pozițiilor punctelor cheie, RTMPose-X estimează, de asemenea, viteza și Accelerație a fiecărui punct cheie. Această informație este critică pentru analiza dinamicii unui swing de golf, oferind perspective asupra metricilor cheie de performanță, cum ar fi:

Viteza de leagănare: Calculată pe baza vitezei încheieturii mâinii în Balansul Descendent.

Rotația Șoldului: Analizată prin viteza unghiulară a articulațiilor șoldului.

Traiectoria Clubului și viteza capului: Dedusă indirect din traiectoriile încheieturii mâinii și cotului.

Aceste metrici pot fi comparate cu etalonuri profesionale pentru a oferi feedback cu privire la mecanica swing a unui jucător.

5. Inferență și Performanță în Timp Real

Întreaga conductă top-down este optimizată pentru performanță în timp real, permițând estimarea poziției la peste 90 FPS pe GPU-uri moderne. Utilizarea de arhitecturi de model extrem de eficiente (CSPNeXt) și tehnici de inferență rapide (SimCC) asigură că sistemul poate gestiona intrare video cu frecvență cadru ridicată, ceea ce o face potrivită pentru feedback în timp real în timpul sesiunilor de antrenament.

6. Evaluare și Validare

Modelele RTMPose-X și RTMDet-M sunt evaluate pe dataset-uri standard, cum ar fi COCO și MPII, arătând performanță puternică cu o precizie medie (AP) de 75,8% pe dataset-ul COCO pentru puncte cheie corporal. Aceste rezultate sunt validate contre adnotări de adevăr în dataset-uri de swing de golf, asigurând robustețea modelului în capturarea mișcărilor dinamice din sport.

6.1 Metrici de Performanță

Mean Squared Error (MSE): Utilizată pentru cuantificarea acurateții predicțiilor punctelor cheie în comparație cu adnotările ground truth.

Average Precision (AP): Evaluează performanța globală a modelului de estimare de poziție.

Timp de Procesare pe Cadru: Măsurat pentru a asigura că sistemul îndeplinește cerințele de timp real (<10 ms per cadru).

7. Concluzie

Abordarea de sus în jos utilizând RTMPose-X și RTMDet-M oferă o metodă eficientă și precisă pentru estimarea poziției în timp real în analitică sportivă, în special pentru analiza swing-ului de golf. Cu detectarea robustă a punctelor cheie, urmărirea temporală și inferență în timp real, această metodologie oferă perspective biomechanice detaliate asupra dinamicii swing-ului de golf, ajutând la îmbunătățirea performanței și prevenirea leziunilor.

Referințe

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset de provocări AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD:

[] Dataset Halpe:

[] Dataset PoseTrack18:

Baza de date Object365: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf

Ultima actualizare: 2025-03-05 | Vizualizare pe site-ul oficial de suport