Zlepšovanie detekcie pohybu bez značiek pri golfe a baseballovom zámahu pomocou RTMPose a RTMDet: Prístup zhora-nadol
Zlepšovanie detekcie pohybu bez značiek pri golfe a baseballovom zámahu pomocou RTMPose a RTMDet: Prístup zhora-nadol
Abstrakt
Táto technická správa dokumentuje aplikáciu RTMPose a RTMDet na presný a efektívny odhad pózy golfového a baseballového swigu. Využívajúc najmodernejšie techniky optimalizované na výkonnosť v reálnom čase, tieto modely umožňujú detailné sledovanie pohybov tela počas golfového a baseballového swigu – kritickú vlastnosť pre zlepšovanie výkonnosti v analýze športov. Zdôrazňujeme výhody prístupu zhora-nadol, kde detektor RTMDet identifikuje golfistov a hráčov baseballu v každom snímku a RTMPose odhaduje polohu kľúčových bodov telesa.
1. Úvod
Odhad pózy sa stal dôležitým nástrojom v analýze výkonnosti športovcov, umožňujúc presné sledovanie pohybov športovcov. V golfe a baseballu poskytuje zachytávanie biomechanických údajov swigu hráča cenné poznatky o dynamike swigu, čo pomáha profesionálom aj amatérom pri zdokonaľovaní ich techník. Tradičné metódy odhadu pózy v 2D často čelia problémom s latenciu a presnosťou, najmä v scenároch v reálnom čase. Táto práca navrhuje riešenie pomocou RTMPose a RTMDet v rámci mmpose Framework pre detailný odhad pózy počas golfového a baseballového swigu.
2. Pozadie
Zložitosť golfového a baseballového swigu vyžaduje presné meranie pohybov tela. Existujúce metódy odhadu pózy nemusia poskytnúť potrebnú presnosť pre výkonnosť v reálnom čase. Pokroky v hlbokých neurónových sieťach a počítačovom videní predstavili modely ako RTMPose a RTMDet, ktoré ponúkajú vylepšenú presnosť a efektívnosť.
3. Prístup zhora-nadol s RTMdet a RTMpose
–insert figure–
3. RTMPose: Model odhadu pózy s vysokou výkonnosťou
RTMPose [1] je navrhnutý pre odhad pózy s vysokou výkonnosťou a v reálnom čase, optimalizovaný na efektívny chod na limitovanom hardvéri.
Kľúčové vlastnosti:
Architektúra modelu a efektívnosť: RTMpose využíva CSPNeXt ako páterovú sieť [1, 2], vyvažujúc rýchlosť a presnosť. CSPNeXt je optimalizovaný na hustých predikčných úlohách ako odhad pózy a detekcia objektov, poskytujúc vysoké rozlíšenie a presnosť pri zachovaní výpočtovej efektívnosti.
Predikcia kľúčových bodov: Používa algoritmus založený na SimCC [1, 3], ktorý horizontálne a vertikálne polohy kľúčových bodov považuje za samostatné úlohy klasifikácie. Táto kompaktná reprezentácia znižuje výpočtovú záťaž a je vhodná na nasadenie na rôznych zariadeniach.
4. RTMDet: Detekčný chrbtový model
RTMDet [4] funguje ako detektor v rozpoznávacej línii RTMPose v pipeline zhora-nadol, identifikujúc polohu golfistov alebo hráčov baseballu v každom snímku.
Kľúčové vlastnosti:
Architektúra modelu a efektívnosť: RTMDet využíva upravenú verziu CSPDarkNet [5], ktorá je viac trénovateľná a presnejšia ako mnohé modely YOLO. Upravená verzia vyupovedáva hlbokej konvolúcie s veľkým jadrom na vyváženie zložitosti a rýchlosti a je efektívna na GPU aj CPU. Je ideálny pre aplikácie v reálnom čase, ako je sledovanie výkonnosti v športe.
Všestrannosť: Spracováva rôzne úlohy detekcie objektov vrátane segmentácie inštancií a rotovanej detekcie objektov. Zaisťuje presnú lokalizáciu hráča aj v dynamických scenároch.
5. Výhody použitia RTMDet a RTMPose pri analýze golfového a baseballového swigu
5.1 Vyššia presnosť v neskupinách scénach
V typických golfových/baseballových podmienkach s niekoľkými jednotlivcami v snímku izoluje RTMDet golfistov/hráčov baseballu, čo umožňuje RTMPose spracovať každú detekovanú osobu s vysokou presnosťou. Tým sa vyhneme zložitosti metód zdola-nahor, ktoré spracúvajú všetky kľúčové body všetkých osôb v snímku súčasne. Prístup zhora-nadol môže tiež zahŕňať algoritmus následného spracovania RTMdet, ktorý identifikuje správnu osobu (t.j. golfistov alebo hráčov baseballu) pred vykonaním odhadu pózy. Okrem toho bol RTMPose vopred natrénovaný na rozšírenom obrazovom materiáli obsahujúcom
5.2 Efektívny výpočet a výkonnosť v reálnom čase
Použitie ľahkých modelov, ako sú RTMdet a RTMpose, zachováva nízku latenciu, čo umožňuje analýzu swigu v reálnom čase na spotrebiteľskom hardvéri. To je obzvlášť užitočné na poskytnutie okamžitej spätnej väzby počas tréningových alebo tréningových sedení. SwingCatalyst bezznačkovej Motion Capture systém je jedným z mála študiovných systémov, ktoré poskytujú spätňu väzbu o pohybe v reálnom čase golfistom a hráčom baseballu.
5.3 Detailná analýza kľúčových bodov
RTMPose detekuje sadu 26 kľúčových bodov tela [6] znázornenú na obrázku 1 nižšie, nevyhnutných na analýzu kinematiky golfového a baseballového swigu. Halpe je rozšírené nastavenie, ktoré zahŕňa ďalšie značky na nohách a hlave v porovnaní so štandardným nastavením Coco s 17 značkami.
–Insert Figure–
6. Metodika pre bezznačkovej Motion Capture golfového a baseballového swigu
6.1 Fáza detekcie: RTMDet
RTMDet sa aplikuje na video snímky golfistov alebo hráčov baseballu, generuje ohraničujúce rámce okolo hráčov, ktoré sa odovzdávajú do RTMPose. Toto zamerania odhadu pózy na relevantné obrazové oblasti, čím sa znižuje výpočtová záťaž.
–Insert Image–
6.2 Fáza odhadu pózy: RTMPose
RTMPose odhaduje polohy kľúčových bodov v ohraničujúcom rámci. Kritické kĺby pre analýzu golfového a baseballového swigu zahŕňajú zápästia, lakťa, pleciá, sedacie kosti a kolená. Tieto kľúčové body hodnotia uhly tela a polohy počas fáz swigu: spätný svinutie, zostupný svinutie a následný svinutie.
–Insert Image–
6.3 Metriky výkonnosti
Všeobecná výkonnosť RTMPose sa meria metrikami ako Priemerná presnosť (AP) na testovacích sadách odhadu pózy ako MS COCO. Nižšie je uvedená výkonnosť najlepšie hodnotených modelov na bežne používanom testovacom súbore Coco. Na dataset MS COCO val je RTMPose-X najlepšie fungujúcim modelom, ktorý je schopný poskytnúť spätňu väzbu v reálnom čase a dosahuje až 75,8% AP s frekvenciou snímkov presahujúcou ?? FPS na GPU na úrovni spotrebiteľa, čím je vhodný pre analýzu športov vysokej rýchlosti.
Poradie Model Rozlíšenie Veľkosť/parametre (Mill) AP Odhad v reálnom čase
1 Sapiens-2B 1024x768 2000 82,2 Nie
2 Sapiens-1B 1024x768 1000 82,1 Nie
3 Sapiens-0.6B 1024x768 600 81,2 Nie
4 Sapiens-0.3B 1024x768 300 79.6 Nie
5 VitPose-H 256x192 632 79.4 Nie
6 RTMPose-X 384x288 49 78.8 Áno
7 VitPose-L 256x192 307 78.6 Nie
8 RTMPose-L 384x288 28 78.3 Áno
9 HRFormer 256x192 43 77.2 Nie
10 HRNet-UDP 384x288 64 77.2 Áno
11 VitPose-B 256x192 86 77.0 Áno
12 RTMPose-L 256x198 28 76.7 Áno
13 RTMPose-M 384x288 14 76.6 Áno
14 HRNet 384x288 64 76.3 Áno
15 VitPose-S 256x192 43 75.8 Áno
16 RTMPose-M 256x192 14 74.9 Áno
17 SimpleBaseline 256x192 60 73.5 Áno
18 FastPose 256x192 79 73.3 Áno
7. Aplikácia v analýze Golf Swingu
Aplikáciou frameworku RTMPose-X a RTMDet-M:
Sledovanie pohybov Kĺbov snímok po snímku: Poskytuje komplexné údaje na analýzu každej fázy swigu.
Poskytovanie spätnej väzby v reálnom čase: Umožňuje okamžité poznatky o postoji a forme swigu počas tréningových relácií.
Porovnanie s ideálnou mechanikou: Umožňuje porovnanie s ideálnou kinematickou mechanikou swigu na identifikáciu oblastí na zlepšenie.
8. Záver
Integrácia RTMPose-X a RTMDet-M ponúka silné riešenie pre analýzu golf swigu v reálnom čase. S vysokou presnosťou, nízkou latenciou a kompatibilitou na rôznych hardvérových platformách tento prístup zhora-nadol poskytuje detailné poznatky do mechaniky swigu. Má výrazný potenciál pomôcť amatérom aj profesionálnym golfistom na zlepšenie ich výkonnosti.
9. Budúca práca
Budúci vývoj by mohol zahŕňať:
Integrácia algoritmov strojového učenia: Na poskytnutie prediktívnej analýzy a návrhov na úpravy na zlepšenie efektívnosti swigu.
Rozšírenie na scenáre s viacerými osobami: Zvýšenie použiteľnosti v tímových športoch alebo skupinových tréningoch.
Vývoj používateľsky prívlastivého rozhrania: Vytvorenie aplikácií alebo nástrojov, ktoré robia túto technológiu dostupnou trénerom a športovcom bez technických znalostí.
Dodatok
Detailná metodológia: Prístup zhora-nadol pre odhad pózy golf swigu s použitím RTMPose-X a RTMDet-M
Prehľad
Metodológia popísaná tu načrtáva detailné kroky zahrnuté v prístupe zhora-nadol pre odhad pózy golf a baseball swigu v reálnom čase, využívajúc silné stránky RTMPose na lokalizáciu kľúčových bodov a RTMDet na detekciu objektov. Proces je rozdelený do niekoľkých etáp: detekcia, lokalizácia kľúčových bodov a následné spracovanie, z ktorých každá prispieva k presnej a efektívnej estimácii telesných kĺbov v golf swigu pre biomechanickú analýzu.
–Vložiť obrázok–
1. Fáza detekcie: Lokalizácia v reálnom čase s RTMDet-M
Prvá etapa prístupu zhora-nadol zahŕňa detekciu golfista v každom snímku videa. V športových scenároch, najmä v golfe, scene zvyčajne pozostáva z jedného hráča, čo zjednodušuje detekčnú úlohu v porovnaní s scénami s dávom.
1.1 Architektúra modelu
RTMDet-M sa používa ako detektor objektov v potrubí. Používa konvolučnú neurónovú sieť (CNN) s kostrou, konkrétne kostrou CSPNeXt, ktorá je navrhnutá na optimalizáciu výkonnosti detekcie objektov v reálnom čase, pričom zachováva rovnováhu medzi rýchlosťou a presnosťou. Kľúčové aspekty architektúry zahŕňajú:
Konvolúcie s hlbokou kernelom veľkej veľkosti: Tieto sa používajú v vrstvách kosti a krku, čím sa zväčšuje receptívne pole pri zachovaní nízkych výpočtových nákladov.
Sieť pyramídy funkcií (FPN): Technika extrakcie viacúrovňových funkcií, ktorá umožňuje detekciu objektov v rôznych mierkach, čím sa zabezpečuje, že golfista môže byť detekovaný bez ohľadu na jeho vzdialenosť od kamery.
1.2 Dynamické priradenie štítkov
RTMDet-M využíva stratégiu dynamického priradenia štítkov, ktorá zlepšuje presnosť detekcie priradením mekkých štítkov objektom na základe kombinácie klasifikácie a lokalizačnej straty. Priradenie štítkov riadi algoritmus SimOTA, ktorý dynamicky vyberá pozitívne vzorky na základe ich pravdepodobnosti zhody so základnou pravdou objektu. Táto metóda zabezpečuje robustnú detekciu v meniacich sa svetelných a environmentálnych podmienkach, ktoré sa často vyskytujú v outdoor golf scénach.
1.3 Predikcia ohraničujúceho rámca
Detektor produkuje ohraničujúce rámce, ktoré obklopujú golfisu v každom snímku. Tieto ohraničujúce rámce poskytujú priestorové obmedzenia, v rámci ktorých bude pracovať model odhadu pózy, čím sa zníži výpočtová záťaž následnej fázy odhadu pózy tým, že sa zameria iba na relevantné oblasti snímku. V tomto kontexte RTMDet-M generuje ohraničujúce rámce v reálnom čase rýchlosťou viac ako 300 FPS na vysoko výkonnom hardvéri, čím sa zabezpečuje, že môže sledovať rýchlu dynamiku golfskeho swigu.
1.4 Redukcia redundancií pre jednu osobu (NMS)
V nastaveniach s viacerými osobami (hoci zriedka sa vyskytuje v analýze golfskeho swigu) RTMDet-M začleňuje algoritmus Redukcia redundancií (NMS) pre pózu, ktorý eliminuje redundantné detekcie kľúčových bodov, čím sa zabezpečuje, že sa zachovajú iba najpresvedčivejšie detekcie pre každú osobu. To je rozhodujúce v prípadoch, keď by sa v preplnených scénach alebo videosekvenciách mohli detectovať prekrývajúce sa ohraničujúce rámce.
1.5 Trénovací dataset a výkonnosť
RTMDet-M je trénovaný na úlohe binárnej klasifikácie inštancií osôb v datasete Object356.
2. Fáza odhadu pózy: Lokalizácia kľúčových bodov RTMPose-X
Keď je ohraničujúci rámec golfisu stanovený, nasledujúca fáza zahŕňa odhad presnej polohy kľúčových kĺbov tela v rámci tejto oblasti. Na tento účel sa používa RTMPose-X, vysoko výkonný model odhadu pózy.
2.1 Lokalizácia kľúčových bodov založená na SimCC
RTMPose-X využíva algoritmus SimCC (Simple Coordinate Classification), ktorý spracováva lokalizáciu kľúčových bodov ako klasifikačný problém. Na rozdiel od tradičných metód založených na tepelných mapách SimCC delí súradnice x a y každého kľúčového bodu na intervaly a klasifikuje presný interval, v ktorom sa každý kľúčový bod nachádza. Tento prístup výrazne znižuje výpočtovú zložitosť a zlepšuje rýchlosť inferencie pri zachovaní vysokej presnosti pre úlohy odhadu ľudskej pózy.
2.2 Grb CSPNeXt
Podobne ako RTMDet-M, aj RTMPose-X používa grb CSPNeXt, ktorý je prispôsobený úlohám hustej predikcie, ako je odhad pózy. Grb CSPNeXt je v tomto scenári výhodný z nasledujúcich dôvodov:
Ľahká architektúra: Architektúra modelu je navrhnutá na minimalizáciu počtu parametrov pri maximalizácii priepustnosti, čím sa stáva ideálna pre aplikácie v reálnom čase.
Efektívna extrakcia prvkov: Vrstvy extrakcie prvkov CSPNeXt sú optimalizované na spracovanie high-resolution obrázkov, čo je kľúčové pre detekciu jemných detailov v rýchlo sa pohybujúcich častiach tela počas golfskeho swigu, ako sú zápästia, lakťa a kolená.
2.3 Reprezentácia kľúčových bodov
RTMPose-X produkuje polohy kľúčových bodov pre všetky relevantné časti tela, vrátane:
Kĺby hornej časti tela: pleciá, lakťa, zápästia a krk
Kĺby dolnej časti tela: sedacie kosti, kolená a členky
Ďalšie kĺby: hlava, chrbtica a ďalšie kľúčové body relevantné pre analýzu swigu
Rozlíšenie 384x288 pre vstupné obrázky zabezpečuje, že aj jemné pohyby v kĺboch sú zachytené presne, pričom sa zachováva schopnosť systému pracovať v reálnom čase.
2.4 Predspracovanie RTMPose: Nestranné spracovanie údajov (UDP)
Pred tým, ako je orezaný obrázok vložený do modelu RTMPose, je vykonaný krok Nestranného spracovania údajov (UDP). UDP rieši kritické predpojatosti pri spracovaní údajov RTMPose počas tréningu a testovania, najmä pri transformáciách súradnicového systému a formátu kľúčových bodov. V konvenčných potokoch odhadu ľudskej pózy štandardné operácie ako prevrátenie a zmena veľkosti často nesprávne zarovnajú výstupy, najmä z dôvodu transformácií založených na pixeloch, čo vedie k strate presnosti a nesprávnemu zarovnaniu prevrátených obrázkov. UDP to opravuje založením nestrannej transformácie súradnicového systému, čím sa zachováva sémantické zarovnanie v rámci rôznych súradnicových priestorov počas podstatných operácií (orezávanie, zmena veľkosti, rotácia, prevrátenie). UDP tiež zavádza nestranné transformácie formátu kľúčových bodov kódovaním kľúčových bodov do tepelných máp bez zavrhnutia pozičnej predpojatosti, ďalej spresňovaných prostredníctvom procesu dekódovania venujúceho si pozornosť Gaussovmu rozdeleniu. Tento prístup k spracovaniu údajov systematicky zlepšuje výkonnosť modelu, ako je znázornené v rozsiahlych testoch na datasetoch COCO a CrowdPose, kde dosiahol vylepšenú presnosť a zníženú latenciu inferencie v rámci top-down a bottom-up modelov [Ref].
3. Následné spracovanie a spresnenie pózy
Keď sú kľúčové body predpovedané, aplikuje sa niekoľko krokov následného spracovania na spresnenie odhadu pózy a zabezpečenie stability v rámci snímkov.
3.1 Vyhladzovanie pózy
Golfske swingy zahŕňajú rýchly pohyb, čo môže vniesť šum alebo výkyvy v odhadnutých polohách kľúčových bodov v rámci snímkov. Na zmiernenie tohto problému sa aplikuje One-Euro Filter na vyhladenie trajektórií kľúčových bodov v čase, čím sa zabezpečí, že sa malé, nefyzikálne výkyvy v predpovediach kľúčových bodov eliminujú. One-Euro Filter pracuje tak, že dynamicky nastavuje šírku pásma filtera na základe rýchlosti pohybu, čo je ideálne pre scenáre ako golfske swingy, kde sa pohyb výrazne líši v rýchlosti v rôznych fázach (spätný swing, zostupný swing a následný swing).
3.2 Mechanizmus preskakujúcich snímkov
Na ďalšiu optimalizáciu sa implementuje mechanizmus preskakujúcich snímkov, pri ktorom sa detekcia vykonáva iba na kľúčových snímkach a odhad pózy sa interpoluje pre medziľahlé snímky. To drasticky zníži výpočtovú záťaž bez obetovania presnosti v scenároch s obmedzeným pohybom medzi snímkami, ako je analýza golfskeho swigu v spomalenom pohybe.
4. Dočasné sledovanie a konzistentnosť sekvencie
Vzhľadom na to, že golfske swingy sú inherentne sekvenčné, je udržiavanie dočasnej konzistentnosti v odhade pózy životne dôležité. RTMPose-X to riadi prostredníctvom techník dočasného sledovania, ktoré zabezpečujú, že predpovede kľúčových bodov sú konzistentné v rámci po sebe idúcich snímkov. To zahŕňa sledovanie polôh kľúčových bodov v čase a zabezpečenie, že ich trajektórie nasledujú realistické vzory pohybu na základe biomechanických obmedzení.
4.1 Analýza rýchlosti a zrýchlenia kľúčových bodov
Okrem sledovania polôh kľúčových bodov RTMPose-X tiež odhaduje rýchlosť a zrýchlenie každého kľúčového bodu. Tieto informácie sú kritické pre analýzu dynamiky golfskeho swigu a poskytujú prehľad o kľúčových metrikách výkonnosti, ako sú:
Rýchlosť čiarky: Vypočítaná na základe rýchlosti zápästia počas zostupného swigu.
Rotácia sedacej kosti: Analyzovaná prostredníctvom rotačnej rýchlosti kĺbov sedacej kosti.
Dráha palice a rýchlosť hlavy: Odvodená nepriamo z trajektórií zápästia a lakťa.
Tieto metriky je možné porovnávať s profesionálnymi referenčnými hodnotami, aby sa poskytla spätná väzba o mechanike swigu hráča.
5. Inferencia a výkonnosť v reálnom čase
Celý top-down potok je optimalizovaný pre výkonnosť v reálnom čase, čo umožňuje odhad pózy rýchlosťou viac ako 90 FPS na moderných GPU. Použitie vysoko efektívnych architektúr modelov (CSPNeXt) a rýchlych techník inferencie (SimCC) zabezpečuje, že systém môže spracovávať vstup videa s vysokou frekvenciou snímkov, čím sa stáva vhodný pre spätnu väzbu v reálnom čase počas tréningových relácií.
6. Vyhodnotenie a validácia
Modely RTMPose-X a RTMDet-M sa vyhodnocujú na štandardných datasetoch, ako sú COCO a MPII, ktoré vykazujú silnú výkonnosť s priemernou presnosťou (AP) 75,8% na datasete COCO pre kľúčové body tela. Tieto výsledky sú validované proti anotáciám zlatého štandardu v datasetoch golfskeho swigu, čím sa zabezpečuje robustnosť modelu pri zachytávaní dynamických pohybov v športe.
6.1 Metriky výkonnosti
Stredná kvadratická chyba (MSE): Používa sa na kvantifikáciu presnosti predpovedí kľúčových bodov v porovnaní s anotáciami základnej pravdy.
Priemerná presnosť (AP): Vyhodnocuje celkovú výkonnosť modelu odhadu pózy.
Čas spracovania snímkov: Benchmark na zaistenie, že systém spĺňa požiadavky na reálny čas (<10 ms na snímok).
7. Záver
Prístup zhora-nadol s použitím RTMPose-X a RTMDet-M poskytuje efektívnu a presnú metódu pre odhad pózy v reálnom čase v analýze športu, konkrétne pre analýzu golfswingow. S robustnou detekciou kľúčových bodov, dočasným sledovaním a inferencou v reálnom čase táto metodika ponúka detailný biomechanický vhľad do dynamiky golfswingow, čo pomáha pri zlepšovaní výkonu a prevencii zranení.
Referencie
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] Dataset výzvy AI:
[] Dataset MS Coco:
[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324
[] Dataset MPII:
[] Dataset sub-JHMBD:
[] Dataset Halpe:
[] Dataset PoseTrack18:
Databáza Object365: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Naposledy aktualizované: 2025-03-05 | Zobraziť na oficiálnej stránke podpory