Bætt Markerless Motion Capture fyrir Golf og Baseball Sveiflu með RTMPose og RTMDet: Top-Down Nálgun

Bætt Markerless Motion Capture fyrir Golf og Baseball Sveiflu með RTMPose og RTMDet: Top-Down Nálgun

Samantekt

Þessi hvítbók skjalfestir notkun RTMPose og RTMDet fyrir nákvæmt og skilvirkt líkamsstillingarmat á golf og baseball sveiflu. Með því að nýta sér fullkomnustu tækni sem hagrædd er fyrir rauntímaafköst, gera þessi módel ítarlega rakningu á hreyfingum líkamans við golf og baseball sveiflu—mikilvægt einkenni til að bæta afköst í íþróttagreiningu. Við undirstrikaum kosti Top-Down Nálgunar, þar sem RTMDet greiningarauki auðkennir golfmanninn og baseball leikamanninn í hverjum ramma, og RTMPose metur staðsetningu lykilpunkta líkama.

1. Inngangur

Líkamsstillingarmat hefur orðið mikilvægt í greiningu á afköstum íþrótta, sem gerir nákvæma rakningu á hreyfingum íþróttamanna kleifa. Í golf og baseball gefur það að fanga líffræðileg gögn um sveiflu leikamanns verðmæta innsýn í virkni sveiflu, sem aðstoðar fagfólk og óaðila við bæta tækni sína. Hefðbundnar 2D líkamsstillingarmatsaðferðir standa oft frammi fyrir fölnun og nákvæmnisáskorun, sérstaklega í rauntímaatburðum. Þessi ritgerð leggur til lausn með RTMPose og RTMDet innan mmpose Framework fyrir ítarlegt líkamsstillingarmat við golf og baseball sveiflu.

2. Bakgrunnur

Flókið eðli golf og baseball sveiflu krefst nákvæmrar mælingar á hreyfingum líkamans. Núverandi líkamsstillingarmatsaðferðir gætu ekki veitt nauðsynlega nákvæmni fyrir rauntímaafköst. Framfarir í djúpri námi og tölvusjón hafa kynnt módel eins og RTMPose og RTMDet, sem bjóða upp á betri nákvæmni og skilvirkni.

3. Top-Down nálgun með RTMDet og RTMPose

–setja inn mynd–

3. RTMPose: Háafkasta Líkamsstillingarmatsmdóel

RTMPose [1] er hannað fyrir háafkasta, rauntíma líkamsstillingarmat, hagrætt til að keyra skilvirkt á takmörkuðum vélbúnaði.

Helstu eiginleikar:

Hönnun módels og skilvirkni: RTMPose nýtir sér CSPNeXt sem bakbein sitt [1, 2], jafnvægi hraða og nákvæmni. CSPNeXt er hagrætt fyrir þéttar spáritgerðir eins og líkamsstillingarmat og hlutagreiningu, sem veitir háa upplausn og nákvæmni á sama tíma og heldur reikniaflssamkvæmni.

Lykilpunkta Spá: Notar SimCC-undirstöðuðan reiknirit [1, 3], og meðhöndlar lárétt og lóðrétt stöðu lykilpunkta sem aðskilda flokkunarverkefni. Þessi samsafnada framsetning dregur úr reikniaflsálagi og hentar útfærslum á ýmsum tækjum.

4. RTMDet: Greiningarauki

RTMDet [4] starfar sem greiningarauki á undan RTMPose í Top-Down pípelínunni, og auðkennir staðsetningu golfmannsins eða baseball leikamannsins innan hvers ramma.

Helstu eiginleikar:

Hönnun módels og skilvirkni: RTMDet nýtir breyttan útgáfu af CSPDarkNet [5] sem er þjálfanlegri og nákvæmari en mörg YOLO módel. Breytta útgáfan nýtir stórar-kjarnal dýpt-vísa faltingu til að jafna flókið og hraða og er skilvirk bæði á GPU og CPU. Það hentar best fyrir rauntímaforrit eins og afkomurakningar íþrótta.

Fjölhæfni: Meðhöndlar ýmis hlutagreiningarverkefni, þar á meðal dæmarflokka og snúna hlutagreiningu. Tryggir nákvæma staðsetningu leikamannsins, jafnvel í kvikundum myndum.

5. Kostir þess að nota RTMDet og RTMPose við greiningu á Golf og Baseball Sveiflu

5.1 Meiri nákvæmni í léttum myndum

Í dæmigerðum golf/baseball aðstæðum með fáum einstaklingum í rammi, aðgreinir RTMDet golfmanninn/baseball leikamanninn, sem gerir RTMPose kleift að vinna úr hverjum greindri manneskju með háum nákvæmni. Þetta forðast flókin bottom-up aðferðir sem vinna úr öllum lykilpunktum fyrir alla einstaklinga í ramma samtímis. Top-Down nálgunin getur einnig falið í sér eftirvinnsluritgerð RTMDet sem auðkennir réttan mann (þ.e. golfmann eða baseball leikmann) fyrir framkvæmd líkamsstillingar. Að auki hefur RTMPose verið forþjálfað á víðtæku myndefni sem inniheldur

5.2 Skilvirk útreikning og rauntímaafköst

Með því að nota létt módel, eins og RTMDet og RTMPose, viðhaldið lágum fölnun, sem gerir rauntíma sveiflugreiningu á almennum vélbúnaði kleif. Þetta er sérstaklega gagnlegt til að veita strax bein endurgjöf við þjálfun eða æfingalotur. Swing Catalyst markerless Motion Capture kerfi er eitt fáa stúdiókerfi sem veitir golfmönnum og baseball leikmönnum bein Motion Capture endurgjöf.

5.3 Ítarleg lykilpunkta greining

RTMPose greinir uppsetningu 26 líkamsstillingarpunkta [6] sem sýnd eru á mynd 1 hér að neðan og eru nauðsynleg til að greina kinematics golf og baseball sveiflu. Halpe26 er útvíkkuð uppsetning sem inniheldur fleiri vísir á fótum og höfði samanborið við staðlaðri COCO uppsetningu með 17 vísir.

–Setja inn mynd–

6. Aðferðarfræði fyrir Golf og Baseball Sveiflu Markerless Motion Capture

6.1 Greiningar fas: RTMDet

RTMDet, beitt á myndbandrammar af golfmanni eða baseball leikamanni, myndar umsveifða kassa um leikamanninn, sem eru sent til RTMPose. Þetta einbeitir líkamsstillingarmati á viðeigandi myndasvæðum, sem dregur úr reikniaflsálagi.

–Setja inn mynd–

6.2 Líkamsstillingarmats fas: RTMPose

RTMPose metur staðsetningu lykilpunkta innan umsveifða kassans. Mikilvægir liðir fyrir golf og baseball sveiflugreiningu innihalda handlæri, olboga, öxlar, mjöðmin og hnéliði. Þessir lykilpunktar meta lichamshorn og stöðu á fasastigum sveiflu: Baksveifla, Niðursviftur og Úthramsa.

–Setja inn mynd–

6.3 Afkastaflokkar

Almennir afkastar RTMPose eru mældir með mælikvarðum eins og Average Precision (AP) á líkamsstillingarmats viðmiðum eins og MS COCO. Hér að neðan eru afkastar bestu röðuðu módela á almennum COCO viðmiðum. Á MS COCO val gagnasafni er RTMPose-X best afkastandi módel sem getur veitt rauntíma endurgjöf og nær allt að 75,8% AP með rammahraði sem fer yfir ?? FPS á almennum GPU, sem gerir það hentug fyrir háhraða íþróttagreiningu.

Röðun Módel Uplausn Stærð/flækjur (Milljónir) AP Rauntímakortun

1 Sapiens-2B 1024x768 2000 82,2 Nei

2 Sapiens-1B 1024x768 1000 82,1 Nei

3 Sapiens-0.6B 1024x768 600 81,2 Nei

4 Sapiens-0.3B 1024x768 300 79.6 Nei

5 VitPose-H 256x192 632 79.4 Nei

6 RTMPose-X 384x288 49 78.8

7 VitPose-L 256x192 307 78.6 Nei

8 RTMPose-L 384x288 28 78.3 Já

9 HRFormer 256x192 43 77.2 Nei

10 HRNet-UDP 384x288 64 77.2 Já

11 VitPose-B 256x192 86 77.0 Já

12 RTMPose-L 256x198 28 76.7 Já

13 RTMPose-M 384x288 14 76.6 Já

14 HRNet 384x288 64 76.3 Já

15 VitPose-S 256x192 43 75.8 Já

16 RTMPose-M 256x192 14 74.9 Já

17 SimpleBaseline 256x192 60 73.5 Já

18 FastPose 256x192 79 73.3 Já

7. Notkun við greiningu á golfsvingum

Með því að nota RTMPose-X og RTMDet-M ramma:

Rekja hreyfingar liða rammi fyrir ramma: Veitir ítarlegar gögn til að greina hvert stig sveiflu.

Veita rauntíma endurgjöf: Gerir kleift að fá strax innsýn í líkamsstöðu og form sveiflunnar við æfingar.

Bera saman við fullkomna virkni: Leyfir samanburð við fullkomna hreyfifræði sveiflunnar til að bera kennsl á svið til endurbóta.

8. Niðurstöður

Samþætting RTMPose-X og RTMDet-M býður upp á öflugt lausn fyrir rauntíma greiningu á golfsvingum. Með mikilli nákvæmni, lágri töf og samhæfni á ýmsum vélbúnaðarkerfum, veitir þessi ofan fyrir neðan nálgun ítarlega innsýn í sveiflu virkni. Það hefur umtalsverða möguleika til að aðstoða bæði áhugamanna og faglegum golfmönnum við að bæta afköst þeirra.

9. Framtíðarvinning

Framtíðarþróun gæti falið í sér:

Samþætting vélanáms reiknirit: Til að veita forspárgetu og leggja til breytingar til að bæta skilvirkni sveiflu.

Stækkun yfir í aðstæður með mörgum einstaklingum: Aukning á hentugleika í liðaiðróttum eða hópaæfingum.

Þróun notendavænt viðmóts: Búa til forrit eða verkfæri sem gera þessa tækni aðgengilega fyrir þjálfara og íþróttamenn án tækniatorna.

Viðauki

Ítarleg aðferðafræði: Ofan Fyrir Neðan Nálgun fyrir mat á líkamsstöðu golfsvings með RTMPose-X og RTMDet-M

Yfirlit

Aðferðafræðin sem lýst er hér gerir grein fyrir ítarlegum skrefum sem felast í ofan fyrir neðan nálgun fyrir rauntíma mat á líkamsstöðu golfsvings og honkbalisveiflu, með því að nýta styrkleika RTMPose fyrir staðsetningu lykilpunkta og RTMDet fyrir hlutagreiningu. Ferlið er skipt í nokkur stig: greining, staðsetning lykilpunkta og eftirvinnsla, sem hver um sig stuðlar að nákvæmu og hagkvæmu mati á líkamasliðum í golfsvingu fyrir líkamsfræðilega greiningu.

–Settu inn mynd–

1. Greiningarfas: Rauntímastöðsetning með RTMDet-M

Fyrsti hluti ofan fyrir neðan nálgunnar felur í sér að greina golfmanninn innan hvers myndar myndbands. Í íþróttaaðstæðum, sérstaklega golfinu, samanstendur atriðið venjulega af einum leikmanni, sem einfaldar greiningarverkið samanborið við fjölmönnuðar myndir.

1.1 Arkitektúr líkans

RTMDet-M er notað sem hlutagreining í pípunum. Það notar dýpt samleitaðs taugakerfis (CNN) gangverk, sérstaklega CSPNeXt gangverk, sem hannað er til að fínstilla afköst rauntíma hlutagreiningar á meðan jafnvægi er viðhaldið milli hraða og nákvæmni. Lykilatriði arkitektúrsins innihalda:

Stór-kjarna dýpt-vís snúninga: Þeir eru notaðir í gangverki og hálsflóum lögum, sem auka móttakasviðið á meðan lágt reikningskostnað er viðhaldið.

Eiginleikapiramídakerfi (FPN): Fjölskali eiginleikaúdratten tækni sem gerir kleift að greina hluti á ýmsum kvarðum, sem tryggir að golfmaðurinn geti verið greindur óháð fjarlægð sinni frá myndavélinni.

1.2 Dýnamískt merkingarúthlugun

RTMDet-M nýtir dýnamíska merkingarúthlutunaraðferð sem bætir greiningarnákvæmni með því að úthluta mjúkum merkingum til hluta byggðar á samsetningu flokkunar og staðsetningartaps. Merkingarúthlutun er stjórnað af SimOTA reikniritinu, sem velur dýnamískt jákvæð sýni út frá líkum þeirra á samsvörun við jarðsannleikann hlutinn. Þessi aðferð tryggir stöðuga greiningu við breytilegar birtri og umhverfisaðstæður sem oft koma fram í golfum útilegum.

1.3 Spá um umsveifða kassa

Greiningin skilar umsveifðum köstum sem umlykja golfmanninn í hverjum ramma. Þessir umsveifðu kassar veita staðbundnar takmarkanir innan þeirra sem líkamsstillingarmatskerfið mun starfa, og draga úr tölvukostnaði næsta líkamsstillingarfasa með því að einblína aðeins á viðeigandi svæði rammans. Í þessu samhengi myndar RTMDet-M umsveifða kassa í rauntíma með yfir 300 FPS á háhraða vélbúnaði, og tryggir að hún geti fylgt ört breytilegu gangverki golfsveiflunnar.

1.4 Aðferð til að eyða ónauðsynlegri uppgötvun (NMS)

Í aðstæðum með marga einstaklinga (þó það sé sjaldgæft í golfsveiflugögnum), tekur RTMDet-M til sér aðferð til að eyða ónauðsynlegri uppgötvun á lykilpunktum (NMS) sem eyðir endurteknum uppgötvanam á lykilpunktum, og tryggir að aðeins áreiðanlegastu uppgotvanir séu varðveittar fyrir alla. Þetta er mikilvægt í tilvikum þar sem skarandi umsveifðir kassar gætu verið uppgottvaðir í þoknum atriðum eða myndskeinum.

1.5 Þjálfunargögn og Afköst

RTMDet-M er þjálfaður á tvíundum flokkunarverkefni á persónutilvikum í Object356 gagnagrunni.

2. Líkamsstillingarmatsfasi: RTMPose-X Staðsetning lykilpunkta

Þegar umsveifði kassinn fyrir golfmanninn hefur verið staðfestur tekur næsti fasi til sín að meta nákvæma staðsetningu lykilliða líkamans innan þessa svæðis. RTMPose-X, háhraði líkamsstillingarmatslíkan, er notað í þessum tilgangi.

2.1 Staðsetning lykilpunkta með SimCC

RTMPose-X notar SimCC (Simple Coordinate Classification) reiknirit, sem meðhöndlar staðsetningu lykilpunkta sem flokkunarverkefni. Ólíkt hefðbundnum hitakortaaðferðum, deilir SimCC x og y hnitum hvers lykilpunkts í skúffur og flokkar nákvæma skúffu þar sem hver lykilpunktur er staðsettur. Þessi nálgun dregur verulega úr reiknitöflu og bætir hraða ályktana á meðan hún heldur mikilli nákvæmni fyrir mannlega líkamsstillingarmatsverk.

2.2 CSPNeXt Grunnstuðningur

Svipað og RTMDet-M, notar RTMPose-X einnig CSPNeXt grunnstuðning, sem er sérstaklega stilltur fyrir þétta spáverkefni eins og líkamsstillingarmat. CSPNeXt grunnstuðningurinn er hagstæður í þessum aðstæðum af eftirtöldum ástæðum:

Létt arkítektúr: Arkítektúr líkansins er hönnuð til að lágmarka fjölda breyta á meðan hún hámarkar afköst, sem gerir hana kjálka fyrir rauntíma forrit.

Skilvirk útdrátt eiginleika: Útdráttarföll eiginleika CSPNeXt eru sértæk til að vinna úr myndum með mikilli upplausn, sem er mikilvægt til að greina smáatriði í hraðfærandi líkamshlutum við golfsveifluna, eins og handlærum, olbogum og hnéliðum.

2.3 Framsetning lykilpunkta

RTMPose-X framleiðir staðsetningar lykilpunkta fyrir alla viðeigandi líkamshluta, þar á meðal:

Liðir efri líkamans: öxlar, olbogar, handlæri og framboði

Liðir neðri líkamans: mjöðmin, hnéliðir og ökklar

Viðbótarliðir: höfuð, hryggur og aðrir lykilpunktar sem skipta máli fyrir sveiflugreiningu

Upplausn 384x288 fyrir inntaksmyndir tryggir að jafnvel lúmsk hreyfing í liðum geti verið nákvæmlega sótt, en viðheldur einnig getu kerfisins til að keyra í rauntíma.

2.4 RTMPose forvinnsla: Óhlutdræg gagnavinnsla (UDP)

Áður en skorniðu myndinni er fædd inn í RTMpose líkanið er óhlutdræg gagnavinnsluferli (UDP) framkvæmt. UDP tekur til mikilvægra hlutdrægni í gagnavinnslu RTMpose við þjálfun og prófun, sérstaklega við hnitakerfi og breytingu á sniði lykilpunkta. Í hefðbundnum leiðum til að meta mannlega líkamsstillingu leiða staðlaðar aðgerðir eins og spegling og endrastærðing oft til rangra úttaka, sérstaklega vegna pixla-undirstaða umbreytinga, sem valda nákvæmnissviki og ekki samstillingu á speglað myndum. UDP leiðréttir þetta með því að stofna óhlutdræða hnitakerfi umbreytingu, og varðveitir merkingarsamstillingu á milli mismunandi hnitakerfa á meðan mikilvæg aðgerðir (skurðir, endrastærðir, snúningar, speglanir) fara fram. UDP innleiðir einnig óhlutdræða breytingu á sniði lykilpunkta með því að kóða lykilpunkta inn í hitakort án þess að koma á staðsetningahlutdrægni, og er síðan fínstilltur með Gaussdreifingu-meðvitaðri afkóðunarferli. Þessi gagnavinnsluaðferð bætir kerfisafköst kerfisbundið, eins og fram kemur í umfangsmiklum prófunum á COCO og CrowdPose gagnagrunnum, þar sem hún náði bættri nákvæmni og minni ályktunartöfnun yfir efan-niður og botn-upp líkön [Tilvísun].

3. Eftirvinnsla og Endurbæt á Líkamsstillingu

Þegar lykilpunktar hafa verið spáðir eru nokkur eftirvinnsluföll beitt til að endurbæta líkamsstillingarmatið og tryggja stöðugleika yfir ramma.

3.1 Jöfnun Líkamsstillingar

Golfsvifla felur í sér hraða hreyfingu, sem getur komið með hávaða eða sveiflum í áætluðum staðsetningum lykilpunkta yfir ramma. Til að draga úr þessu er One-Euro sía beitt til að jafna brautir lykilpunkta með tímanum, og tryggir að litlar, óeðlilegar sveiflur í spám lykilpunkta séu útrýmdar. One-Euro sían starfar með því að aðlaga breidd síu breytilega eftir hraða hreyfingar, sem er kjálka fyrir aðstæður eins og golfsveiflur, þar sem hreyfing er mjög misjöfn í hraða á mismunandi fösum (baksveifla, niðursviftur og úthramsa).

3.2 Kerfi til að sleppa Römmum

Til frekari hagræðingar er kerfi til að sleppa römmum framkvæmt, þar sem uppgötvun er framkvæmd aðeins á aðalkömpum, og líkamsstillingarmat er innlent fyrir milliramma. Þetta dregur verulega úr reiknitöflu án þess að fórna nákvæmni í aðstæðum með takmarkað hreyfingu milli ramma, eins og hægfara gogningu golfsveiflunnar.

4. Tímabundin rakningu og Samræmi röðar

Miðað við að golfsvifla eru eðlislega röðunarkennd, er mikilvægt að viðhalda tímabundum samræmi í líkamsstillingarmatinu. RTMPose-X tekur til sín tímabundna rakningartækni, sem tryggja að spár lykilpunkta séu samræmdar yfir samfallandi ramma. Þetta felur í sér að rekja staðsetningar lykilpunkta með tímanum og tryggja að brautir þeirra fylgi raunhæfum hreyfingarmynstri sem byggjast á líffræðilegum takmörkunum.

4.1 Greining á Hraða og Hröðun Lykilpunkta

Til viðbótar við rakningar á staðsetningum lykilpunkta, áætlar RTMPose-X einnig hraða og hröðun hvers lykilpunkts. Þessar upplýsingar eru mikilvægar fyrir greiningu á gangverki golfsveiflunnar, og veita innsýn í mikilvæga afkastaeiginleika eins og:

Sveifuhraði: Reiknaður út frá handlærshraða meðan á niðursvifti stendur.

Hip rotation: Greind með snúningshraða mjöðminaliða.

Club path og höfuðhraði: Afleiddir óbeint frá brautum handlæra og olboga.

Þessa mælikvarða er hægt að bera saman við faglega staðla til að gefa endurgjöf um sveiflu virkni leiksmanns.

5. Ályktun og Afköst í Rauntíma

Öll ofan-fyrir-neðan rörið er hagræðað fyrir afköst í rauntíma, sem gerir kleift að nota líkamsstillingarmat með yfir 90 FPS á nútímavís GPU. Notkun mjög skilvirkra líkanskipulags (CSPNeXt) og hraðra ályktunartækni (SimCC) tryggir að kerfið geti unnið úr myndskeinum með háum rammahraða, sem gerir hana hentugt fyrir endurgjöf í rauntíma á meðan á þjálfunasetu stendur.

6. Mat og Staðfesting

RTMPose-X og RTMDet-M líkönin eru metin á stöðluðum gagnagrunnum eins og COCO og MPII, og sýna sterka afköst með meðalsæði (AP) 75,8% á COCO gagnagrunni fyrir líkamslykilpunkta. Þessar niðurstöður eru staðfestar gegn sannarðri merkingunni í golfsveiflugögnum, og tryggja endingu líkansins við að taka hreyfanleg íþróttahreyfingarnar.

6.1 Afkastasmælikvarðar

Meðaltal Kvaðratsskekkju (MSE): Notað til að mæla nákvæmni lykilpunktalykla á móti sannleika merkingum.

Meðal Nákvæmni (AP): Metur heildarafköst líkamsstillingarmatslíkans.

Rammavinnslunarhrói: Frammistaða prófuð til að tryggja að kerfið uppfylli rauntímakröfur (<10 ms fyrir hvern ramma).

7. Niðurstöður

Ofan fyrir neðan nálgunin með RTMPose-X og RTMDet-M býður upp á skilvirka og nákvæma aðferð fyrir rauntímalikasstillingarmat í íþróttagreiningu, sérstaklega fyrir greining golfsveiflna. Með traustri lykilpunktagreiningu, tímabundinni rakingu og rauntímaályktunum, þessi aðferðafræði gefur ítarlega æfingafræðilega innsýn í gangverki golfsveiflnu, sem hjálpar við framförbætur afkasta og forvarnir meiðsla.

Heimildir

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI áskorun dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset:

[] Halpe dataset:

[] PoseTrack18 dataset:

Object365 gagnagrunnur: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf

Síðast uppfært: 2025-03-05 | Skoðaðu á opinberum stuðningsvefsíðu