A Golf és Baseball lendület jelzőmentes mozgásrögzítésének javítása RTMPose és RTMDet használatával: Felülnézeti megközelítés

A Golf és Baseball lendület jelzőmentes mozgásrögzítésének javítása RTMPose és RTMDet használatával: Felülnézeti megközelítés

Absztrakt

Ez a tanulmány az RTMPose és RTMDet alkalmazását dokumentálja a golf és baseball lendület pontos és hatékony pózíció becslésében. A valós idejű teljesítményre optimalizált csúcstechnológiai technikákat felhasználva, ezek a modellek lehetővé teszik a testmozgások részletes nyomon követését a golf és baseball lendület során – kritikus jellemző a teljesítmény javításához a sport analitikában. Kiemeljük a felülnézeti megközelítés előnyeit, ahol egy kész RTMDet detektor azonosítja a golfjátékost és baseball játékost minden képkockában, az RTMPose pedig becsüli a kulcsfontosságú testízületek helyzetét.

1. Bevezetés

A pózíció becslés pivotális szerepet játszik a sportoló teljesítmény elemzésében, lehetővé téve a sportolók mozgásainak pontos nyomon követését. A golfban és baseball-ban a játékos lendületének biomechanikai adatainak rögzítése értékes betekintést nyújt a lendület dinamikájába, segítve a professzionálisokat és amatőröket egyaránt technikáik finomításában. A hagyományos 2D pózíció becslési módszerek gyakran szembesülnek késleltetési és pontossági kihívásokkal, különösen valós idejű forgatókönyvekben. Ez a cikk egy megoldást javasol az RTMPose és RTMDet használatával a mmpose Framework-ben a golf és baseball lendület során végzett részletes pózíció becsléshez.

2. Háttér

A golf és baseball lendület összetextsége a testmozgások pontos mérését igényli. A meglévő pózíció becslési módszerek nem biztosíthatják a szükséges pontosságot valós idejű teljesítményre. A mély tanulás és számítógépes látás fejlődése olyan modelleket vezetett be, mint az RTMPose és RTMDet, amelyek javított pontosságot és hatékonyságot kínálnak.

3. Felülnézeti megközelítés RTMDet és RTMPose segítségével

–ábra beszúrása–

3. RTMPose: Nagysebességű Pózíció becslési modell

Az RTMPose [1] nagysebességű, valós idejű pózíció becslésre tervezett, korlátozott hardveren hatékony futásra optimalizált.

Fő jellemzők:

Modell architektúra és hatékonyság: Az RTMPose a CSPNeXt-et használja gerincként [1, 2], egyensúlyozva a sebességet és pontosságot. A CSPNeXt sűrű előrejelzési feladatokra, például pózíció becslésre és objektumdetektálásra optimalizált, magas felbontást és pontosságot biztosít az számítási hatékonyság fenntartása mellett.

Kulcspont előrejelzés: A SimCC-alapú algoritmust alkalmaz [1, 3], a kulcspontok vízszintes és függőleges pozícióit külön osztályozási feladatokként kezelve. Ez a kompakt reprezentáció csökkenti a számítási terhelést és alkalmas a különféle eszközökön történő telepítésre.

4. RTMDet: Az Objektumdetektálás gerinc

Az RTMDet [4] a detektor, amely megelőzi az RTMPose-t a felülnézeti folyamatban, azonosítva a golfjátékos vagy baseball játékos helyét minden képkockában.

Fő jellemzők:

Modell architektúra és hatékonyság: Az RTMDet a CSPDarkNet módosított verzióját használja [5], amely taníthatóbb és precízebb, mint számos YOLO modell. A módosított verzió nagy kernelű mélységi konvolúciókat használ a komplexitás és sebesség egyensúlyozásához, és hatékony mind GPU, mind CPU esetén. Ideális valós idejű alkalmazásokhoz, mint a sport teljesítményt nyomon követés.

Sokoldalúság: Különféle objektumdetektálási feladatokat kezel, beleértve a szegmentálást és forgó objektumdetektálást. Biztosítja a játékos pontos lokalizálást, még dinamikus jelenetekben is.

5. Az RTMDet és RTMPose használatának előnyei a Golf és Baseball lendület elemzésében

5.1 Magasabb pontosság nem zsúfolt jelenetekben

Tipikus golf/baseball beállítások során néhány személy a képkockában, az RTMDet elszigeteli a golfjátékost/baseball játékost, lehetővé téve az RTMPose számára, hogy minden detektált személyt magas pontossággal feldolgozzon. Ez elkerüli az alulnézeti módszerek összetettségét, amelyek összes képkockában minden személy összes kulcspontját feldolgozzák egyidejűleg. A felülnézeti megközelítés tartalmazhat az RTMdet utófeldolgozás algoritmusát, amely azonosítja a helyes személyt (azaz golfjátékost vagy baseball játékost) a pózíció becslés végrehajtása előtt. Emellett az RTMPose előre lett tanítva kiterjesztett képanyaggal, amely tartalmazza

5.2 Hatékony számítás és valós idejű teljesítmény

Könnyű modellek, például az RTMDet és RTMPose használata alacsony késleltetést biztosít, amely valós idejű lendület elemzést tesz lehetővé fogyasztói hardveren. Ez különösen hasznos az azonnali élő visszajelzés biztosításához edzési vagy tréning munkamenetek során. A SwingCatalyst jelzőmentes mozgásrögzítési rendszer az egyik kevés studio rendszer, amely élő mozgásrögzítési visszajelzést nyújt a golfjátékosoknak és baseball játékosoknak.

5.3 Részletes kulcspont analízis

Az RTMPose 26 testpont egy készletét detektálja [6], amely az 1. ábrán látható, lényeges a golf és baseball lendület kinematikai elemzéséhez. Halpe26 egy kiterjesztett készlet, amely további jelölőket tartalmaz a lábakban és fejben az 17 jelölővel rendelkező COCO szabványos készlethez képest.

–Ábra beszúrása–

6. Módszertan a Golf és Baseball lendület jelzőmentes mozgásrögzítéséhez

6.1 Detektálási fázis: RTMDet

A golfjátékos vagy baseball játékos videó képkockáira alkalmazva, az RTMDet határolódobozokat generál a játékos körül, amelyeket az RTMPose-nak adnak át. Ez a pózíció becslést a releváns képtartományokra összpontosítja, csökkentve a számítási terhelést.

–Kép beszúrása–

6.2 Pózíció becslési fázis: RTMPose

Az RTMPose a határolódobozban lévő kulcspont pozíciókat becsüli meg. A golf és baseball lendület elemzéséhez kritikus ízületek közé tartoznak a csukló, könyök, váll, csípő és térd. Ezek a kulcspontok értékelik a testszögeket és pozíciókat a lendület fázisaiban: visszalendítés, lefelé lendület és utánkövetkezés.

–Kép beszúrása–

6.3 Teljesítmény metrikai

Az RTMPose általános teljesítménye az Átlagos Pontosság (AP) és a pózíció becslési benchmarkokat, például az MS COCO alkalmazásával mérik. Az alábbiakban a legjobban rangsorolt modellek teljesítménye a gyakran használt COCO benchmark. Az MS COCO val adathalmazon az RTMPose-X a legjobb teljesítő modell, amely képes valós idejű visszajelzés biztosítására, és eléri az 75,8%-os AP-t a fogyasztói GPU-kon ?? FPS-nél meghaladó képkockasebesség mellett, így alkalmas nagysebességű sport analitikához.

Rang Modell Felbontás Méret/paraméterek (Mill) AP Valós idejű inference

1 Sapiens-2B 1024x768 2000 82.2 Nem

2 Sapiens-1B 1024x768 1000 82.1 Nem

3 Sapiens-0.6B 1024x768 600 81.2 Nem

4 Sapiens-0.3B 1024x768 300 79.6 Nem

5 VitPose-H 256x192 632 79.4 Nem

6 RTMPose-X 384x288 49 78.8 Igen

7 VitPose-L 256x192 307 78.6 Nem

8 RTMPose-L 384x288 28 78.3 Igen

9 HRFormer 256x192 43 77.2 Nem

10 HRNet-UDP 384x288 64 77.2 Igen

11 VitPose-B 256x192 86 77.0 Igen

12 RTMPose-L 256x198 28 76.7 Igen

13 RTMPose-M 384x288 14 76.6 Igen

14 HRNet 384x288 64 76.3 Igen

15 VitPose-S 256x192 43 75.8 Igen

16 RTMPose-M 256x192 14 74.9 Igen

17 SimpleBaseline 256x192 60 73.5 Igen

18 FastPose 256x192 79 73.3 Igen

7. Alkalmazás a Golf Lendület Elemzésben

Az RTMPose-X és RTMDet-M keretrendszer alkalmazásával:

Izületi Mozgások Nyomon Követése Képkockáról Képkockára: Átfogó adatokat szolgáltat a lendület egyes fázisainak elemzéséhez.

Valós Idejű Visszajelzés Biztosítása: Azonnali betekintést nyújt a lendület testtartásába és formaadataiba az edzési munkamenetek során.

Összehasonlítás az Ideális Mechanikával: Lehetővé teszi az összehasonlítást az ideális lendület kinematikájával a javítandó területek azonosítása érdekében.

8. Összefoglalás

Az RTMPose-X és RTMDet-M integrációja hatékony megoldást kínál a valós idejű golflendület-elemzéshez. A magas pontosság, az alacsony késleltetés és a különféle hardverplatformok közötti kompatibilitás révén ez a felülnézeti megközelítés részletes betekintést nyújt a lendület mechanikájába. Jelentős potenciállal bír mind az amatőr, mind a profi golfjátékosok teljesítménynövelésében.

9. Jövőbeli Fejlesztések

A jövőbeli fejlesztések a következőket tartalmazhatják:

Machine Learning Algoritmusok Integrálása: A prediktív analitika biztosításához és javaslatok nyújtásához a lendület hatékonyságának javítása érdekében.

Kiterjesztés Több Személyes Forgatókönyvekre: Az alkalmazhatóság fokozása csapatsportok vagy csoportos edzési környezetekben.

Felhasználóbarát Felület Fejlesztése: Olyan alkalmazások vagy eszközök létrehozása, amelyek ezt a technológiát elérhetővé teszik az edzőknek és sportolóknak műszaki szakértelem nélkül.

Függelék

Részletes Módszertan: Felülnézeti Megközelítés a Golf Lendület Pózíció Becsléshez az RTMPose-X és RTMDet-M Használatával

Áttekintés

Az itt leírt módszertan a felülnézeti megközelítés részletes lépéseit vázolja fel a golf- és baseball-lendület valós idejű pózíció becsléséhez, kihasználva az RTMPose kulcspont-lokalizációs és az RTMDet objektumdetektálási erősségeit. A folyamat több szakaszra van osztva: detektálás, kulcspont-lokalizáció és utófeldolgozás, amelyek mindegyike hozzájárul a test izületei pontos és hatékony becsléséhez a golflendületben az biomechanikai elemzéshez.

–Insert figure–

1. Detektálási Fázis: Valós Idejű Lokalizáció RTMDet-M-mel

A felülnézeti megközelítés első szakasza a golfjátékos felismerése a videó egyes képkockáin belül. Sportjelenetek esetén, különösen a golf esetén, a jelenet általában egyetlen játékosból áll, amely egyszerűbbé teszi a detektálási feladatot a tömeges jelenetekhez képest.

1.1 Modell Architektúra

Az RTMDet-M objektumdetektort alkalmazzák a csővezeték objektumdetektálasakor. Egy konvolúciós neurális hálózati (CNN) gerincet használ, konkrétan a CSPNeXt gerincet, amely a valós idejű objektumdetektálás teljesítményének optimalizálására tervezett, miközben egyensúlyt tart a sebesség és pontosság között. Az architektúra kulcsaspektusai a következők:

Nagy kernelméretű mélységirányú konvolúciók: Ezeket az gerincben és nyak rétegekben használják, amely növeli a receptív mezőt az alacsony számítási költség megőrzése mellett.

Jellemzési piramishálózat (FPN): Egy multi-skálás jellemzés-kinyerési technika, amely lehetővé teszi az objektumok detektálását különféle skálákon, biztosítva, hogy a golfjátékos a kamerától való távolságtól függetlenül detektálható legyen.

1.2 Dinamikus Címke-hozzárendelés

Az RTMDet-M egy dinamikus címke-hozzárendelési stratégiát használ, amely javítja a detektálási pontosságot azáltal, hogy puha címkéket rendel az objektumokhoz a klasszifikációs és lokalizációs veszteség kombinációja alapján. A címke-hozzárendelést a SimOTA algoritmus irányítja, amely dinamikusan választja ki a pozitív mintákat az alapigazság objektummal való egyezésük valószínűsége alapján. Ez a módszer robusztus detektálást biztosít a változó megvilágítás és környezeti körülmények között, amelyekkel gyakran találkoznak a kültéri golf jelenetekben.

1.3 Határolódoboz Predikció

A detektor Határolódobozokat ad ki, amelyek minden képkockában bekerítik a golfjátékost. Ezek a Határolódobozok térbeli korlátokat biztosítanak, amelyeken belül a Pózíció becslés modell működik, csökkentve a számítási terhelést a következő Pózíció becslés fázison azáltal, hogy csak a képkocka releváns területeire összpontosít. Ebben az összefüggésben az RTMDet-M valós időben több mint 300 FPS-en generál Határolódobozokat nagysebességű hardveren, biztosítva, hogy lépést tud tartani a golfütés gyors dinamikájával.

1.4 Személy Non-Maximum Suppression (NMS)

Multi-személy beállításokban (bár ritkák a golfütés-elemzésben) az RTMDet-M egy Pózíció Non-Maximum Suppression (NMS) algoritmust tartalmaz, amely redundáns Kulcspont detektálásokat küszöbölhet ki, biztosítva, hogy csak a legbiztosabb detektálások maradnak meg mindenkinek. Ez kritikus olyan esetekben, amikor átfedő Határolódobozok észlelhetők zsúfolt jelenetekben vagy videószekvenciákban.

1.5 Képzési Dataset és Teljesítmény

Az RTMDet-M egy bináris klasszifikációs feladaton van képezve az Object356 dataset személyi példányain.

2. Pózíció becslés Fázis: RTMPose-X Kulcspont Lokalizáció

Miután a golfjátékos Határolódoboza megállapíttatott, a következő fázis a kulcs testizületek pontos helyének becslésével foglalkozik ezen a régión belül. Az RTMPose-X, egy nagysebességű Pózíció becslés modell, erre a célra használatos.

2.1 SimCC-Alapú Kulcspont Lokalizáció

Az RTMPose-X a SimCC (Simple Coordinate Classification) algoritmust alkalmazza, amely a Kulcspont lokalizációt klasszifikációs problemaként kezeli. A hagyományos heatmap-alapú módszerekhez képest a SimCC minden Kulcspont x és y koordinátáit rekeszekre osztja, és klasszifikálja azt a pontot, ahol minden Kulcspont található. Ez a megközelítés jelentősen csökkenti a számítási komplexitást és javítja az következtetési sebességet, miközben magas pontosságot tart fenn az emberi Pózíció becslés feladatokhoz.

2.2 CSPNeXt Backbone

Az RTMDet-M-hez hasonlóan az RTMPose-X is a CSPNeXt backbont használja, amely sűrű előrejelzési feladatokhoz, mint például a Pózíció becsléshez van igazítva. A CSPNeXt backbone ebben a forgatókönyvben az alábbi okok miatt előnyös:

Könnyűsúlyú architektúra: A modell architektúrája úgy van megtervezve, hogy minimalizálja a paraméterek számát, miközben maximalizálja az áteresztőképességet, ami ideális valós idejű alkalmazásokhoz.

Hatékony jellemzőkinyerés: A CSPNeXt jellemzőkinyerési rétegei nagy felbontású képek feldolgozására vannak optimalizálva, ami döntő fontosságú a golfütés során gyorsan mozgó testrésztúck apró részleteinek, például csuklók, könyökök és térdek detektálásához.

2.3 Kulcspont Reprezentáció

Az RTMPose-X Kulcspont helyeket ad ki az összes releváns testrészhez, beleértve:

Felső test Izületek: Vállak, Könyökök, Csuklók és Nyak

Alsó test Izületek: Csípők, Térdek és Bokák

További Izületek: Fej, Gerincoszlop és egyéb kulcsfontosságú pontok, amelyek relevánsak az ütésanalízishez

A 384x288-as felbontás a bemeneti képekhez biztosítja, hogy az Izületek még finom mozgásai is pontosan rögzítésre kerüljenek, miközben a rendszer valós idejű futtatásának képességét is fenntartja.

2.4 RTMPose előfeldolgozás: Torzítatlan Adatfeldolgozás (UDP)

Mielőtt a vágott képet az RTMpose modellbe kerül, egy Torzítatlan Adatfeldolgozás (UDP) lépés kerül végrehajtásra. Az UDP az RTMpose adatfeldolgozásában kritikus torzításokat kezel betanítás és tesztelés során, különösen a Koordináta-rendszer és Kulcspont formátum transzformációkban. Hagyományos emberi Pózíció becslés folyamatokhoz, a szokásos műveletek, mint a tükrözés és átméretezés gyakran rosszul igazodnak, különösen a pixel-alapú transzformációk miatt, amelyek pontosságvesztéshez és a tükrözött képek nem-igazításához vezetnek. Az UDP ezeket korrigálja egy torzítatlan Koordináta-rendszer Transzformáció megállapításával, megőrizve a szemantikus igazítást a különféle koordinátatárlokozatok között az alapvető műveletek (vágás, átméretezés, forgatás, tükrözés) során. Az UDP egy torzítatlan Kulcspont formátum transzformációt is bevezet azáltal, hogy Kulcspontokat heatmapokba kódol pozicionális torzítás bevezetése nélkül, amelyet egy Gauss-eloszlás-tudatos dekódolási folyamat továbbfinomít. Ez az adatfeldolgozási megközelítés szisztematikusan javítja a modell teljesítményét, ahogyan azt a COCO és CrowdPose dataseteken végzett széles körű tesztek mutatják, ahol fokozott pontosságot és csökkent következtetési latensiát ért el a felülnézeti és alulnézeti modellek között [Ref].

3. Utófeldolgozás és Pózíció Finomítás

Miután a Kulcspontok előrejelzésre kerülnek, számos utófeldolgozási lépés kerül alkalmazásra a Pózíció becslés finomítására és a stabilitás biztosítására a képkockák között.

3.1 Pózíció Simítás

A golfütések gyors mozgást járnak, amely zajt vagy ingadozásokat vezet be a becsült Kulcspont pozíciókban a képkockák között. Ennek enyhítésére egy One-Euro Filter kerül alkalmazásra a Kulcspont pályák időbeli simítására, biztosítva, hogy a Kulcspont-előrejelzésekben az apró, nem-fizikai ingadozások kiküszöbölésre kerüljenek. A One-Euro Filter úgy működik, hogy dinamikusan beállítja a szűrő sávszélességét a mozgás sebessége alapján, amely ideális olyan forgatókönyvekhez, mint a golfütések, ahol a mozgás jelentősen változó sebességgel történik a különböző fázisok (Visszalendítés, Lefelé Lendület és Utánkövetkezés) között.

3.2 Képkocka Átugrási Mechanizmus

A további optimalizálás érdekében egy Képkocka átugrási mechanizmus kerül bevezetésre, ahol a detektálás csak kulcsképeken történik, és a Pózíció becslés a közbenső képkockáknál interpolálásra kerül. Ez drasztikusan csökkenti a számítási terhelést anélkül, hogy feláldozná a pontosságot olyan forgatókönyvekben, ahol korlátozott mozgás van a képkockák között, például egy golfütés lassított mozgásos elemzéséhez.

4. Időbeli Nyomon követés és Szekvencia Konzisztencia

Tekintettel arra, hogy a golfütések lényegében szekvenciálisak, a Pózíció becslésben az időbeli konzisztencia fenntartása létfontosságú. Az RTMPose-X ezt időbeli nyomon követési technikákon keresztül kezel, amelyek biztosítják, hogy a Kulcspont-előrejelzések konzisztensek az egymást követő képkockák között. Ez magában foglalja a Kulcspont pozíciók időbeli nyomon követését és biztosítja, hogy pályáik reális mozgásmintákat követnek a biomechanikai korlátok alapján.

4.1 Kulcspont Sebesség és Gyorsulás Elemzés

A Kulcspont pozíciók nyomon követésén túl az RTMPose-X minden Kulcspont Sebesség és Gyorsulása is becslésre kerül. Ez az információ kritikus fontosságú a golfütés dinamikájának elemzéséhez, betekintést biztosítva az olyan kulcsfontosságú teljesítménymutatók közé, mint:

Lendület sebessége: Számított a csukló Sebessége alapján a Lefelé Lendület során.

Csípő forgatás: Elemzett a csípőízület szögsebesség alapján.

Ütő útja és fej sebessége: Közvetlenül a csukló és Könyök pályákból inferálva.

Ezek a metrikai értékek összehasonlíthatók a professzionális benchmarkokkal, hogy visszajelzést adjanak a játékos ütés mechanikájáról.

5. Következtetés és Valós Idejű Teljesítmény

Az egész Felülnézeti megközelítés folyamat valós idejű teljesítményre van optimalizálva, lehetővé téve a Pózíció becslést több mint 90 FPS-en modern GPU-kon. A nagyon hatékony modell architektúrák (CSPNeXt) és gyors következtetési technikák (SimCC) használata biztosítja, hogy a rendszer magas képkockasebességű videóbemenetet tud kezelni, így alkalmas valós idejű visszajelzésre a képzési munkamenetekben.

6. Értékelés és Validáció

Az RTMPose-X és RTMDet-M modellek standard dataseteken, például a COCO és MPII-n kerülnek értékelésre, erős teljesítményt mutatva 75,8%-os átlagos precizitással (AP) a COCO dataseten a test Kulcspontokra. Ezek az eredmények a golflendület datasetekben a ground-truth annotációkkal szemben validálásra kerülnek, biztosítva a modell robusztusságát a dinamikus sportmozgások rögzítésében.

6.1 Teljesítmény Metrikai

Mean Squared Error (MSE): A kulcspontok előrejelzésének pontosságának mérésére használható a talaj-igazság annotációkhoz képest.

Average Precision (AP): A pózíció becslés modell teljes teljesítményét értékeli.

Képkocka feldolgozási idő: Benchmarkolt annak biztosítására, hogy a rendszer megfeleljen a valós idejű követelményeknek (képkockánként <10 ms).

7. Konklúzió

A felülnézeti megközelítés RTMPose-X és RTMDet-M alkalmazásával hatékony és pontos módszert biztosít a valós idejű pózíció becsléséhez a sportelemzésben, különösen a golflendület-elemzésben. A robusztus kulcspont-detektálás, az időbeli nyomon követés és a valós idejű inferencia révén ez a módszertan részletes biomechanikai betekintést nyújt a golflendület dinamikájába, segítve a teljesítményfejlesztést és a sérülések megelőzését.

Hivatkozások

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI challenge dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset: