Poboljšanje Markerless Motion Capture Zamaha u Golfu i Baseballu Korištenjem RTMPose i RTMDet: Pristup Odozgo
Poboljšanje Markerless Motion Capture Zamaha u Golfu i Baseballu Korištenjem RTMPose i RTMDet: Pristup Odozgo
Sažetak
Ovaj tehnički dokument dokumentira primjenu RTMPose i RTMDet za točnu i učinkovitu procjenu poze zamaha golfa i baseballu. Leveraging najsuvremenije tehnike optimizirane za performanse u realnom vremenu, ovi modeli omogućavaju detaljno praćenje kretanja tijela tijekom zamaha u golfu i baseballu—kritična značajka za poboljšanje izvedbe u sport analitici. Ističemo prednosti pristupa odozgo, gdje RTMDet detektor off-the-shelf identificira golfera i igrača baseballu u svakom okviru, a RTMPose procjenjuje pozicije ključnih zglobova tijela.
1. Uvod
Procjena poze postala je ključna u analizi sportske izvedbe, omogućujući točno praćenje kretanja sportaša. U golfu i baseballu, uhvaćanje biomehaničkih podataka zamaha igrača pruža vrijedne uvide u dinamiku zamaha, pomažući profesionalcima i amaterima da usavršavaju svoje tehnike. Tradicionalne 2D metode procjene poze često se suočavaju s izazovima latencije i točnosti, posebno u scenarijima realnog vremena. Ovaj rad predlaže rješenje korištenjem RTMPose i RTMDet unutar mmpose Framework za detaljnu procjenu poze tijekom zamaha u golfu i baseballu.
2. Pozadina
Složenost zamaha u golfu i baseballu zahtijeva točno mjerenje kretanja tijela. Postojeće metode procjene poze možda ne pružaju potrebnu točnost za performanse u realnom vremenu. Napredak u dubokom učenju i računalnom vidu uveo je modele poput RTMPose i RTMDet, koji nude poboljšanu točnost i učinkovitost.
3. Pristup odozgo s RTMdet i RTMpose
–insert figure–
3. RTMPose: Model za Procjenu Poze Visoke Izvedbe
RTMPose [1] je dizajniran za procjenu poze visoke izvedbe u realnom vremenu, optimiziran za učinkovito pokretanje na ograničenoj hardveru.
Ključne značajke:
Arhitektura modela i učinkovitost: RTMpose koristi CSPNeXt kao svoj backbone [1, 2], uravnotežavajući brzinu i točnost. CSPNeXt je optimiziran za zadatke gustoće poput procjene poze i detekcije objekata, pružajući visoku rezoluciju i preciznost uz održavanje računalne učinkovitosti.
Predviđanje ključnih točaka: Koristi SimCC-bazirani algoritam [1, 3], tretirajući horizontalne i vertikalne pozicije ključnih točaka kao odvojene zadatke klasifikacije. Ovaj kompaktan prikaz smanjuje računalno opterećenje i pogodno je za uvođenje na raznim uređajima.
4. RTMDet: Backbone za Detekciju
RTMDet [4] djeluje kao detektor koji prethodi RTMPose u top-down pipelineу, identificirajući lokaciju golfера ili igrača baseballu u svakom okviru.
Ključne značajke:
Arhitektura modela i učinkovitost: RTMDet koristi modificirane verzije CSPDarkNet [5] koja je trenabilnija i preciznija od mnogih YOLO modela. Modificirana verzija iskorištava large-kernel depth-wise konvolucije za uravnotežavanje složenosti i brzine te je učinkovita na GPU i CPU. Idealna je za aplikacije realnog vremena poput praćenja sportske izvedbe.
Svestranost: Rukuje raznim zadacima detekcije objekata, uključujući segmentaciju instanci i rotiranu detekciju objekata. Osigurava točnu lokalizaciju igrača, čak i u dinamičnim scenarijima.
5. Prednosti korištenja RTMDet i RTMPose u analizi zamaha u golfu i baseballu
5.1 Viša točnost u nenatrpanskim scenama
U tipičnim postavkama golfa/baseballu s nekoliko jedinki u okviru, RTMDet izolira golfera/igrača baseballu, omogućujući RTMPose da obradi svaku detektiranu osobu s visokom točnosti. To izbjegava složenost bottom-up metoda koje obračunavaju sve ključne točke za sve osobe u okviru istovremeno. Pristup odozgo može također uključiti post-processing algoritam RTMdet koji identificira pravu osobu (tj. golfera ili igrača baseballu) prije obavljanja procjene poze. Osim toga, RTMPose je prethodno obučen na proširenom slikovnom materijalu koji sadrži
5.2 Učinkovito Računanje i Izvedba u Realnom Vremenu
Korištenjem laganих modela, poput RTMdet i RTMpose, održava se niska latencija, omogućujući analizu zamaha u realnom vremenu na potrošačkoj hardveru. Ovo je posebno korisno za pružanje trenutne povratne informacije tijekom sesija treniranja ili instrukcije. SwingCatalyst markerless motion capture sustav je jedan od rijetkih studio sustava koji pružaju live motion capture povratnu informaciju golfеrima i igračima baseballu.
5.3 Detaljne Analize Ključnih Točaka
RTMPose detektira skup od 26 ključnih točaka tijela [6] prikazanih na slici 1 ispod, esencijalne za analizu kinematike zamaha golfa i baseballu. Halpe26 je proširena postavka koja uključuje dodatne markere na nogama i glavi u usporedbi sa standardnijom postavkom Coco s 17 markera.
–Insert Figure–
6. Metodologija za Markerless Motion Capture Zamaha u Golfu i Baseballu
6.1 Faza Detekcije: RTMDet
Primijenjena na video okvire golfера ili igrača baseballu, RTMDet generira Graničnike oko igrača, koji se prosleđuju RTMPose. Ovo fokusira procjenu poze na relevantne regije slike, smanjujući računalno opterećenje.
–Insert Image–
6.2 Faza Procjene Poze: RTMPose
RTMPose procjenjuje pozicije ključnih točaka unutar Graničnika. Kritični zglobovi za analizu zamaha golfa i baseballu uključuju zapešće, laktove, ramena, kukove i kolena. Te ključne točke procjenjuju kutove tijela i pozicije tijekom faza zamaha: zamah unazad, zamah prema dolje i nastavak zamaha.
–Insert Image–
6.3 Metrike Izvedbe
Opća izvedba RTMPose mjeri se metrikama poput Average Precision (AP) na benchmarkima procjene poze poput MS COCO. Ispod je izvedba najbolje rangirano rangiranih modela na često korištenim COCO benchmarku. Na MS COCO val datasetu, RTMPose-X je najbolje izvedeni model sposoban pružiti povratnu informaciju u realnom vremenu i postižu do 75,8% AP s brzinama okvira koja premašuju ?? FPS na potrošačkim GPU-ima, što ga čini pogodnim za analizu sportova visoke brzine.
Rang Model Rezolucija Veličina/parametri (Mil) AP Uiteza u realnom vremenu
1 Sapiens-2B 1024x768 2000 82.2 Ne
2 Sapiens-1B 1024x768 1000 82.1 Ne
3 Sapiens-0.6B 1024x768 600 81.2 Ne
4 Sapiens-0.3B 1024x768 300 79.6 Ne
5 VitPose-H 256x192 632 79.4 Ne
6 RTMPose-X 384x288 49 78.8 Da
7 VitPose-L 256x192 307 78.6 Ne
8 RTMPose-L 384x288 28 78.3 Da
9 HRFormer 256x192 43 77.2 Ne
10 HRNet-UDP 384x288 64 77.2 Da
11 VitPose-B 256x192 86 77.0 Da
12 RTMPose-L 256x198 28 76.7 Da
13 RTMPose-M 384x288 14 76.6 Da
14 HRNet 384x288 64 76.3 Da
15 VitPose-S 256x192 43 75.8 Da
16 RTMPose-M 256x192 14 74.9 Da
17 SimpleBaseline 256x192 60 73.5 Da
18 FastPose 256x192 79 73.3 Da
7. Primjena u Analizi Zamaha u Golfu
Primjenom okvira RTMPose-X i RTMDet-M:
Praćenje Kretanja Zglobova Okvir-za-Okvirom: Daje sveobuhvatne podatke za analizu svake faze zamaha.
Pružanje Povratne Informacije u Realnom Vremenu: Omogućava trenutne uvide u postrutu i tehniku zamaha tijekom treninga.
Usporedba s Idealnom Mehanikom: Omogućava usporedbu s idealnom kinematikom zamaha kako bi se identificirala područja za poboljšanje.
8. Zaključak
Integracija RTMPose-X i RTMDet-M nudi moćno rješenje za analizu zamaha u golfu u stvarnom vremenu. S visokom preciznošću, niskom latencijom i kompatibilnošću na različitim hardverskim platformama, ovaj pristup odozgo pruža detaljne uvide u mehaniku zamaha. Ima značajan potencijal da pomoću kako amaterskim tako i profesionalnim golferstima da poboljšaju svoju izvedbu.
9. Budući Rad
Buduća unaprijeđenja mogu uključivati:
Integracija Algoritama Strojnog Učenja: Za pružanje prediktivne analitike i preporuke za poboljšanje učinkovitosti zamaha.
Proširenje na Scenarije s Više Osoba: Poboljšanje primjenjivosti u timskim sportovima ili grupnim treninzima.
Razvoj Sučelja Prilagođenog Korisniku: Stvaranje aplikacija ili alata koji čine ovu tehnologiju dostupnom trenerima i sportašima bez tehničke stručnosti.
Dodatak
Detaljni Metodologija: Pristup Odozgo za Procjenu Poze Zamaha u Golfu Koristeći RTMPose-X i RTMDet-M
Pregled
Metodologija opisana ovdje prikazuje detaljne korake uključene u pristup odozgo za procjenu poze u stvarnom vremenu zamaha u golfu i bejzbolu, koristeći prednosti RTMPose za lokalizaciju ključnih točaka i RTMDet za detekciju objekata. Proces je podijeljen na nekoliko faza: detekcija, lokalizacija ključnih točaka i naknadna obrada, od kojih svaka doprinosi preciznoj i učinkovitoj procjeni zglobova tijela u zamahu golfa za biomehaničku analizu.
–Umetnite sliku–
1. Faza Detekcije: Lokalizacija u Stvarnom Vremenu s RTMDet-M
Prva faza pristupa odozgo uključuje detekciju golfera unutar svakog okvira videa. U sportskim scenarijima, posebno u golfu, scena obično sadrži jednog igrača, što pojednostavljuje zadatak detekcije u odnosu na prizore gužve.
1.1 Arhitektura Modela
RTMDet-M se koristi kao detektor objekata u cjevovodu. Koristi konvolucijsku neuronsku mrežu (CNN) leđa, specifično CSPNeXt leđa, dizajnirana da optimizira izvedbu detekcije objekata u stvarnom vremenu, održavajući ravnotežu između brzine i točnosti. Ključni aspekti arhitekture uključuju:
Konvolucije dubine s velikim kernelima: Koriste se u slojevima leđa i vrata, povećavajući receptivno polje uz održavanje niske računalne cijene.
Mreža piramide značajki (FPN): Tehnika ekstrakcije značajki u više razmjera koja omogućava detekciju objekata na različitim razmjerima, osiguravajući da golfer bude detektiran bez obzira na njegovu udaljenost od kamere.
1.2 Dinamička Dodjela Oznaka
RTMDet-M koristi dinamičku strategiju dodjele oznaka koja poboljšava točnost detekcije dodjeljivanjem mekih oznaka objektima na temelju kombinacije gubitka klasifikacije i lokalizacije. Dodjela oznaka upravlja se SimOTA algoritmom, koji dinamički bira pozitivne uzorke na temelju vjerojatnosti njihovog podudaranja sa osnovnom ispravom objekta. Ova metoda osigurava robusnu detekciju u različitim vremenskim i okolišnim uvjetima koji se često susreću u vanjskim scenarijima golfa.
1.3 Predviđanje Graničnika
Detektor ispisuje Graničnike koji okružuju golfera u svakom okviru. Ti Graničnici pružaju prostorne ograničenja unutar kojih će raditi model procjene poze, smanjujući računalno opterećenje u sljedećoj fazi procjene poze fokusirajući se samo na relevantna područja okvira. U tom kontekstu, RTMDet-M generira Graničnike u realnom vremenu s preko 300 FPS na visokoperformantnom hardveru, čime osigurava da može pratiti brze dinamike golfanskog zamaha.
1.4 Potiskivanje Ne-Maksimalne Vrijednosti za Osobu (NMS)
U okruženjima s više osoba (iako rijetko u analizi golfanskog zamaha), RTMDet-M uključuje algoritam Potiskivanja Ne-Maksimalne Vrijednosti (NMS) za pozu koji eliminira redundantne detekcije ključnih točaka, osiguravajući da se samo najpouzdanije detekcije zadržavaju za svakoga. To je ključno u slučajevima gdje se mogući preklapa Graničnici mogu detektirati u gužvama ili video sekvencama.
1.5 Dataset Treninga i Izvedba
RTMDet-M je treniran na binarnoj klasifikacijskoj zadaci na primjercima osoba u Object356 datasetu.
2. Faza Procjene Poze: Lokalizacija Ključnih Točaka RTMPose-X
Kad se Graničnik za golfera uspostavi, sljedeća faza uključuje procjenu precizne lokacije ključnih zglobova tijela unutar tog područja. RTMPose-X, model procjene poze visoke izvedbe, koristi se za tu svrhu.
2.1 Lokalizacija Ključnih Točaka Temeljena na SimCC-u
RTMPose-X koristi algoritam SimCC (Simple Coordinate Classification) koji lokalizaciju ključnih točaka tretira kao problem klasifikacije. Za razliku od tradicionalnih metoda temeljenih na toplinskoj karti, SimCC dijeli x i y koordinate svake ključne točke na spremnike i klasificira točan spremnik u kojem se nalazi svaka ključna točka. Ovaj pristup značajno smanjuje računalnu složenost i poboljšava brzinu zaključivanja zadržavajući pri tome visoku točnost za zadatke procjene ljudske poze.
2.2 CSPNeXt Backbone
Slično RTMDet-M, RTMPose-X također koristi CSPNeXt backbone koji je prilagođen za zadatke gustog predviđanja kao što je procjena poze. CSPNeXt backbone ima prednosti u ovoj situaciji iz sljedećih razloga:
Laka arhitektura: Arhitektura modela je dizajnirana da minimizira broj parametara dok maksimizira propusnost, što je idealno za aplikacije u realnom vremenu.
Učinkovita ekstrakcija značajki: Slojevi ekstrakcije značajki CSPNeXt-a optimizirani su za obradu slika visoke rezolucije, što je ključno za detekciju sitnih detalja u brzo pokretnim dijelovima tijela tijekom golfanskog zamaha, kao što su zapešće, lakat i kolena.
2.3 Reprezentacija Ključnih Točaka
RTMPose-X ispisuje lokacije ključnih točaka za sve relevantne dijelove tijela, uključujući:
Zglobovi gornjeg dijela tijela: ramena, lakti, zapešće i vrat
Zglobovi donjeg dijela tijela: kukovi, kolena i gležnjevi
Dodatni zglobovi: glava, kralježnica i druge ključne točke relevantne za analizu zamaha
Rezolucija od 384x288 za ulazne slike osigurava da čak i suptilni pokreti zglobova mogu biti uhvaćeni točno, dok se zadržava sposobnost sustava da radi u realnom vremenu.
2.4 RTMPose preprocessing: Nepristrana Obrada Podataka (UDP)
Prije nego što se odsječena slika unese u RTMpose model, izvršava se korak Nepristrane Obrade Podataka (UDP). UDP obraća kritične pristranosti pri obradi podataka RTMpose-a tijekom treniranja i testiranja, konkretno pri transformacijama koordinatnog sustava i formata ključnih točaka. U konvencionalnim cjevovodima procjene ljudske poze, standardne operacije kao što su okretanje i promjena veličine često krivo poravnavaju izlaze, osobito zbog transformacija temeljenih na pikselima, što dovodi do gubitka preciznosti i neporavnanja okrenute slike. UDP ovo ispravlja uspostavljanjem nepristrane transformacije koordinatnog sustava, čime se čuva semantička poravnanja različitih koordinatnih prostora tijekom važnih operacija (rezanje, promjena veličine, rotacija, okretanje). UDP također uvodi nepristrano transformiranje formata ključnih točaka kodiranjem ključnih točaka u toplinske karte bez uvodenja pristranosti pozicije, dalje unaprijeđeno kroz proces dekodiranja svijestan Gaussovske distribucije. Ovaj pristup obradi podataka sustavno poboljšava izvedbu modela, kao što je pokazano u opsežnim testovima na COCO i CrowdPose datasetima, gdje je postignuta poboljšana točnost i smanjena latencija zaključivanja u modelima odozgo prema dolje i odozdo prema gore [Ref].
3. Naknadna Obrada i Dorada Poze
Kad se ključne točke predvide, primjenjuje se nekoliko koraka naknadne obrade kako bi se dorada procjene poze osigurala stabilnost kroz okvire.
3.1 Izglađivanje Poze
Golfanski zamahi uključuju brz pokret, što može uvesti buku ili fluktuacije u procijenjenih pozicija ključnih točaka kroz okvire. Da se ovo ublažи, One-Euro Filter se primjenjuje kako bi se izgladile putanje ključnih točaka tijekom vremena, osiguravajući da male, nefizičke fluktuacije u predviđanjima ključnih točaka budu eliminirane. One-Euro Filter radi prilagođavanjem propusnosti filtera dinamički na osnovu brzine pokreta, što je idealno za scenarije poput golfanskog zamaha, gdje se pokret značajno razlikuje po brzini kroz različite faze (zamah unazad, zamah prema dolje i nastavak zamaha).
3.2 Mehanizam Preskakanja Okvira
Za dodatnu optimizaciju, primjenjuje se mehanizam preskakanja okvira, gdje se detekcija izvršava samo na ključnim okvirima, a procjena poze je interpolirana za međuokvire. Ovo drastično smanjuje računalno opterećenje bez žrtvovanja točnosti u scenarima s ograničenim pokretom između okvira, kao što je analiza u sporom kretanju golfanskog zamaha.
4. Vremensko Praćenje i Konzistentnost Slijeda
S obzirom da su golfanski zamahi inherentno sekvencijalni, održavanje vremenske konzistentnosti u procjeni poze je vitalno. RTMPose-X se bavi time kroz tehnike vremenskog praćenja, koje osiguravaju da su predviđanja ključnih točaka konzistentna kroz uzastopne okvire. Ovo uključuje praćenje pozicija ključnih točaka tijekom vremena i osiguravanjem da njihove putanje slijede realistične obrasce kretanja na osnovu biomehaničkih ograničenja.
4.1 Analiza Brzine i Akceleracije Ključnih Točaka
Osim praćenja pozicija ključnih točaka, RTMPose-X također procjenjuje brzinu i akceleracijom svake ključne točke. Ova informacija je kritična za analizu dinamike golfanskog zamaha, pružajući uvid u ključne metrike izvedbe kao što su:
Brzina zamaha: Izračunata na osnovu brzine zapešća tijekom zamaha prema dolje.
Rotacija kuka: Analizirana kroz brzinu rotacije zglobova kuka.
Putanja palice i brzina glave: Izvedena indirektno iz putanja zapešća i lakta.
Te metrike mogu se usporediti s profesionalnim primjerima kako bi se pružila povratna informacija o mehanici zamaha igrača.
5. Zaključivanje i Izvedba u Realnom Vremenu
Cijeli cjevovod odozgo prema dolje optimiziran je za izvedbu u realnom vremenu, što omogućava procjenu poze s preko 90 FPS na modernim GPU-ima. Korištenje izuzetno učinkovitih arhitektura modela (CSPNeXt) i brzih tehnika zaključivanja (SimCC) osigurava da sustav može rukovati ulazom video s visokom brzinom okvira, što ga čini prikladnim za povratnu informaciju u realnom vremenu tijekom sesija treninga.
6. Vrednovanje i Validacija
RTMPose-X i RTMDet-M modeli su vrednovanje na standardnim datasetima kao što su COCO i MPII, pokazujući snažnu izvedbu s prosječnom preciznošću (AP) od 75,8% na COCO datasetu za ključne točke tijela. Ti su rezultati validirani prema anotacijama temelja istine u datasetima golfanskog zamaha, osiguravajući robusnost modela pri uhvaćanju dinamičkih sportskih pokreta.
6.1 Metrike Izvedbe
Mean Squared Error (MSE): Koristi se za kvantificiranje točnosti predviđanja ključnih točaka u odnosu na anotacije temeljene na činjenicama.
Average Precision (AP): Evaluira ukupnu izvedbu modela procjene poze.
Vrijeme Obrade Okvira: Mjereno kako bi se osiguralo da sustav ispunjava zahtjeve za rad u realnom vremenu (<10 ms po okviru).
7. Zaključak
Pristup Odozgo koristeći RTMPose-X i RTMDet-M pruža učinkovitu i točnu metodu za procjenu poze u realnom vremenu u sportskoj analitici, posebno za analizu zamaha u golfu. Sa robusnom detekcijom ključnih točaka, vremenskim praćenjem i zaključivanjem u realnom vremenu, ova metodologija nudi detaljne biomehaničke uvide u dinamiku zamaha u golfu, pomažući u poboljšanju izvedbe i sprječavanju ozljeda.
Literatura
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] AI challenge dataset:
[] MS Coco dataset:
[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324
[] MPII dataset:
[] sub-JHMBD dataset:
[] Halpe dataset:
[] PoseTrack18 dataset:
Object365 database: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Zadnje ažurirano: 2025-03-05 | Pogledaj na službenoj web stranici za podršku