Zlepšení bezmarkerové Motion Capture pro golfový a baseballový swing pomocí RTMPose a RTMDet: Přístup shora dolů

Zlepšení bezmarkerové Motion Capture pro golfový a baseballový swing pomocí RTMPose a RTMDet: Přístup shora dolů

Abstrakt

Tento technický dokument popisuje aplikaci RTMPose a RTMDet pro přesný a efektivní odhad polohy při golfovém a baseballovém swingu. Využitím nejmodernějších technik optimalizovaných pro práci v reálném čase tyto modely umožňují detailní sledování pohybů těla během golfového a baseballového swingu—kritickou vlastnost pro zlepšení výkonu ve sportovní analytice. Zdůrazňujeme výhody přístupu shora dolů, kdy detektor RTMDet identifikuje golfistu a baseballového hráče v každém snímku a RTMPose odhaduje polohy klíčových bodů těla.

1. Úvod

Odhad polohy se stal zásadním prvkem analýzy sportovního výkonu, který umožňuje přesné sledování pohybů sportovců. V golfu a baseballu vychytávání biomechanických dat swingu hráče poskytuje cenné poznatky o dynamice swingu, které pomáhají profesionálům i amatérům zdokonalit jejich techniku. Tradicionální metody 2D odhadu polohy často čelí problémům se latencí a přesností, zejména v situacích v reálném čase. Tento dokument navrhuje řešení pomocí RTMPose a RTMDet v rámci mmpose Framework pro detailný odhad polohy během golfového a baseballového swingu.

2. Základní informace

Složitost golfového a baseballového swingu vyžaduje přesné měření pohybů těla. Stávající metody odhadu polohy nemusí poskytnout potřebnou přesnost pro výkon v reálném čase. Pokroky v hlubokém učení a počítačovém vidění zavedly modely jako RTMPose a RTMDet, které nabízejí zlepšenou přesnost a efektivitu.

3. Přístup shora dolů s RTMDet a RTMPose

–insert figure–

3. RTMPose: Vysoce výkonný model odhadu polohy

RTMPose [1] je navržena pro vysoce výkonný odhad polohy v reálném čase, optimalizovaný pro efektivní chod na omezeném hardwaru.

Klíčové vlastnosti:

Architektura modelu a efektivita: RTMPose využívá CSPNeXt jako svou páteř [1, 2], vyvažující rychlost a přesnost. CSPNeXt je optimalizován pro úkoly husté predikce, jako je odhad polohy a detekce objektů, poskytující vysoké rozlišení a přesnost při zachování výpočetní efektivity.

Predikce klíčových bodů: Používá algoritmus založený na SimCC [1, 3], který zachází s horizontální a vertikální pozicí klíčových bodů jako se samostatnými úkoly klasifikace. Toto kompaktní zobrazení snižuje výpočetní zatížení a vhodně se hodí pro nasazení na různých zařízeních.

4. RTMDet: Detekční páteř

RTMDet [4] funguje jako detektor předcházející RTMPose v pipeline přístupu shora dolů, identifikující polohu golfistu nebo baseballového hráče v každém snímku.

Klíčové vlastnosti:

Architektura modelu a efektivita: RTMDet využívá modifikovanou verzi CSPDarkNet [5], která je lépe trénovaná a přesnější než mnohé modely YOLO. Modifikovaná verze využívá velké jádrové hloubkově-moudrá konvoluce k vyvážení složitosti a rychlosti a je efektivní na GPU i CPU. Je ideální pro aplikace pracující v reálném čase, jako je sledování sportovního výkonu.

Všestrannost: Zvládá různé úkoly detekce objektů, včetně segmentace instancí a rotované detekce objektů. Zajišťuje přesnou lokalizaci hráče, i v dynamických scénách.

5. Výhody používání RTMDet a RTMPose v analýze golfového a baseballového swingu

5.1 Vyšší přesnost v málo obsazených scénách

V typických golfových/baseballových prostředích s malým počtem jedinců v obraze RTMDet izoluje golfistu/baseballového hráče, což umožňuje RTMPose zpracovat každou detekovanou osobu s vysokou přesností. To zabrání složitosti metod zdola nahoru, které zpracovávají všechny klíčové body pro všechny osoby v snímku současně. Přístup shora dolů může také zahrnovat algoritmus následujícího zpracování RTMDet identifikující správnou osobu (tj. golfistu nebo baseballového hráče) před provedením odhadu polohy. Navíc RTMPose byl přetrénován na rozšířeném obrazovém materiálu obsahujícím

5.2 Efektivní výpočet a výkon v reálném čase

Použití lehkých modelů, jako je RTMDet a RTMPose, udržuje nízkou latenci, což umožňuje analýzu swingu v reálném čase na hardware komerčního stupně. To je obzvláště užitečné pro poskytování okamžité živé zpětné vazby během tréninkových nebo trénovacích relací. Systém bezmarkerové Motion Capture Swing Catalyst je jedním z mála studiových systémů, které poskytují golfistům a hráčům v baseballu živou zpětnou vazbu Motion Capture.

5.3 Detailní analýza klíčových bodů

RTMPose detekuje sadu 26 klíčových bodů těla [6] zobrazených na obrázku 1 níže, nezbytných pro analýzu kinematiky golfového a baseballového swingu. Halpe26 je rozšířená sada, která zahrnuje dodatečné markery na nohou a hlavě ve srovnání se standardnější sadou COCO s 17 markery.

–Insert Figure–

6. Metodologie bezmarkerové Motion Capture pro golfový a baseballový swing

6.1 Fáze detekce: RTMDet

Při aplikaci na video snímky golfistu nebo baseballového hráče RTMDet generuje ohraničující boxy kolem hráče, které jsou předány RTMPose. To zaměřuje odhad polohy na relevantní oblasti obrazu, což snižuje výpočetní zatížení.

–Insert Image–

6.2 Fáze odhadu polohy: RTMPose

RTMPose odhaduje polohy klíčových bodů v ohraničujícím boxu. Kritické klouby pro analýzu golfového a baseballového swingu zahrnují zápěstí, lokty, ramena, kyčle a kolena. Tyto klíčové body vyhodnocují úhly těla a polohy během fází swingu: zpětný záběr, sestupný pohyb a follow-through.

–Insert Image–

6.3 Metriky výkonu

Obecný výkon RTMPose se měří pomocí metrik, jako je Average Precision (AP) na benchmarcích odhadu polohy, jako je MS COCO. Níže je uveden výkon nejlépe hodnocených modelů na běžně používaném benchmarku COCO. Na datové sadě MS COCO val je RTMPose-X nejlépe se chující model, který je schopen poskytnout zpětnou vazbu v reálném čase a dosahuje až 75,8% AP se snímkovými frekvencemi přesahujícími ?? FPS na GPU komerčního stupně, což jej činí vhodným pro analýzu vysokorychlostního sportu.

Pořadí Model Rozlišení Velikost/parametry (Miliony) AP Inference v reálném čase

1 Sapiens-2B 1024x768 2000 82,2 Ne

2 Sapiens-1B 1024x768 1000 82,1 Ne

3 Sapiens-0.6B 1024x768 600 81,2 Ne

4 Sapiens-0.3B 1024x768 300 79.6 Ne

5 VitPose-H 256x192 632 79.4 Ne

6 RTMPose-X 384x288 49 78.8 Ano

7 VitPose-L 256x192 307 78.6 Ne

8 RTMPose-L 384x288 28 78.3 Ano

9 HRFormer 256x192 43 77.2 Ne

10 HRNet-UDP 384x288 64 77.2 Ano

11 VitPose-B 256x192 86 77.0 Ano

12 RTMPose-L 256x198 28 76.7 Ano

13 RTMPose-M 384x288 14 76.6 Ano

14 HRNet 384x288 64 76.3 Ano

15 VitPose-S 256x192 43 75.8 Ano

16 RTMPose-M 256x192 14 74.9 Ano

17 SimpleBaseline 256x192 60 73.5 Ano

18 FastPose 256x192 79 73.3 Ano

7. Aplikace v analýze golfu Swing

Aplikací rámce RTMPose-X a RTMDet-M:

Sledovat pohyby kloubů snímek po snímku: Poskytuje komplexní data pro analýzu každé fáze swingu.

Poskytnout zpětnou vazbu v reálném čase: Umožňuje okamžité poznatky o postoji a formě swingu během tréninku.

Porovnání s ideální mechanikou: Umožňuje porovnání s ideální kinematic swingu, aby se zjistily oblasti pro zlepšení.

8. Závěr

Integrace RTMPose-X a RTMDet-M nabízí výkonné řešení pro analýzu golfového swingu v reálném čase. Díky vysoké přesnosti, nízké latenci a kompatibilitě na různých hardwarových platformách tento přístup shora dolů poskytuje podrobné poznatky o mechanice swingu. Má značný potenciál pomoci jak amatérským, tak profesionálním golfistům v zlepšování jejich výkonu.

9. Budoucí práce

Budoucí vývoj by mohl zahrnovat:

Integraci algoritmů strojového učení: Aby se poskytla prediktivní analytika a návrhy na zlepšení efektivity swingu.

Rozšíření na víceosobové scénáře: Zlepšení aplikovatelnosti v týmových sportech nebo skupinovém tréninku.

Vývoj uživatelsky přívětivého rozhraní: Vytváření aplikací nebo nástrojů, které tuto technologii zpřístupní trenérům a sportlivcům bez technických znalostí.

Příloha

Detailní metodologie: Přístup shora dolů pro odhad polohy golfového swingu pomocí RTMPose-X a RTMDet-M

Přehled

Metodologie popsaná zde načrtává podrobné kroky v přístupu shora dolů pro odhad polohy v reálném čase golfového a baseballového swingu, využívající síly RTMPose pro lokalizaci klíčových bodů a RTMDet pro detekci objektů. Proces je rozdělen do několika fází: detekce, lokalizace klíčových bodů a následující zpracování, z nichž každá přispívá k přesnému a efektivnímu odhadu tělesných kloubů v golfovém swingu pro biomechanickou analýzu.

–Vložit obrázek–

1. Fáze detekce: Lokalizace v reálném čase s RTMDet-M

První fáze přístupu shora dolů zahrnuje detekci golfisty v rámci každého snímku videa. Ve sportovních scénářích, zejména v golfu, se scéna obvykle skládá z jednoho hráče, což zjednodušuje detekční úkol ve srovnání se scénami s dávkou.

1.1 Architektura modelu

RTMDet-M se používá jako detektor objektů v potrubí. Používá konvoluční neuronovou síť (CNN) páteř, konkrétně páteř CSPNeXt, navržená tak, aby optimalizovala výkon detekce objektů v reálném čase, přičemž zachovává rovnováhu mezi rychlostí a přesností. Klíčové aspekty architektury zahrnují:

Hluboké konvoluce s velkým jádrem: Tyto se používají v páteřních vrstvách a vrstvách síě, což zvětšuje receptivní pole při zachování nízké výpočetní ceny.

Pyramida charakteristik (FPN): Technika extrakce charakteristik na více úrovních, která umožňuje detekci objektů v různých měřítcích, čímž se zajišťuje, že golfista může být detekován bez ohledu na jeho vzdálenost od kamery.

1.2 Přiřazení dynamických štítků

RTMDet-M využívá strategii přiřazování dynamických štítků, která zlepšuje přesnost detekce přiřazením měkkých štítků objektům na základě kombinace klasifikačních a lokalizačních ztrát. Přiřazení štítků je řízeno algoritmem SimOTA, který dynamicky vybírá pozitivní vzorky na základě jejich pravděpodobnosti shody s objektem základní pravdy. Tato metoda zajišťuje robustní detekci v měnících se světelných a environmentálních podmínkách, které se často vyskytují v outdoor golfových scénách.

1.3 Predikce Ohraničujícího Boxu

Detektor vypisuje Ohraničující Boxy, které obklopují golfistu v každém snímku. Tyto Ohraničující Boxy poskytují prostorová omezení, v rámci kterých bude model odhadu polohy fungovat, čímž se snižuje výpočetní zátěž následující fáze odhadu polohy zaměřením se pouze na relevantní oblasti snímku. V tomto kontextu RTMDet-M generuje Ohraničující Boxy v reálném čase s více než 300 FPS na vysoce výkonném hardwaru, což zajišťuje, že může sledovat rychlou dynamiku golfu swing.

1.4 Potlačení Osob bez Maxima (NMS)

V multi-osobních nastaveních (přestože vzácných v analýze golfu swing) RTMDet-M zahrnuje algoritmus potlačení maxima bez maxima (NMS), který eliminuje redundantní detekce klíčových bodů a zajišťuje, že jsou pro všechny zachovány pouze nejdůvěryhodnější detekce. To je zásadní v případech, kdy mohou být v přeplněných scénách nebo videosekvencích detekovány překrývající se Ohraničující Boxy.

1.5 Tréninková Dataset a Výkon

RTMDet-M je trénován na binární klasifikační úloze na instancích osob v datasetu Object356.

2. Fáze Odhadu Polohy: Lokalizace Klíčových Bodů RTMPose-X

Jakmile je stanoven Ohraničující Box pro golfistu, následující fází je odhad přesné polohy klíčových kloubů těla v rámci této oblasti. Pro tento účel se používá RTMPose-X, vysoce výkonný model odhadu polohy.

2.1 Lokalizace Klíčových Bodů na Základě SimCC

RTMPose-X využívá algoritmus SimCC (Simple Coordinate Classification), který považuje lokalizaci klíčových bodů za klasifikační problém. Na rozdíl od tradičních metod založených na teplotní mapě SimCC dělí x a y souřadnice každého klíčového bodu do bin a klasifikuje přesný bin, kde se každý klíčový bod nachází. Tento přístup výrazně snižuje výpočetní složitost a zlepšuje rychlost odvozování při zachování vysoké přesnosti pro úlohy odhadu lidské polohy.

2.2 CSPNeXt Backbone

Podobně jako RTMDet-M, RTMPose-X také používá CSPNeXt backbone, který je přizpůsoben pro úlohy husté predikce, jako je odhad polohy. CSPNeXt backbone je v tomto scénáři výhodný z následujících důvodů:

Lehká architektura: Architektura modelu je navržena tak, aby minimalizovala počet parametrů a zároveň maximalizovala propustnost, což ji činí ideální pro aplikace v reálném čase.

Efektivní extrakce vlastností: Vrstvy extrakce vlastností CSPNeXt jsou optimalizovány pro zpracování vysokorozlišovacích obrázků, což je zásadní pro detekci malých detailů v rychle se pohybujících částech těla během golfu swing, jako jsou zápěstí, lokty a kolena.

2.3 Reprezentace Klíčových Bodů

RTMPose-X vypisuje polohy klíčových bodů pro všechny relevantní části těla, včetně:

Klouby Horního Těla: ramena, lokty, zápěstí a krk

Klouby Dolní Části Těla: kyčle, kolena a kotníky

Další klouby: hlava, páteř a další klíčové body relevantní pro analýzu swingu

Rozlišení 384x288 pro vstupní obrázky zajišťuje, že lze přesně zachytit i jemné pohyby v kloubech, přičemž se zachovává schopnost systému běžet v reálném čase.

2.4 RTMPose předběžné zpracování: Nezaujaté Zpracování Dat (UDP)

Před vložením oříznutého obrázku do modelu RTMpose se provádí krok Nezaujaté Zpracování Dat (UDP). UDP řeší kritické zkreslení v zpracování dat RTMpose během tréninku a testování, konkrétně v transformacích souřadnicového systému a formátu klíčových bodů. V konvenčních kanálech odhadu lidské polohy standardní operace, jako je překlopení a změna velikosti, často způsobují nesprávné zarovnání výstupů, zejména kvůli transformacím na základě pixelů, které vedou ke ztrátě přesnosti a nesprávnému zarovnání převrácených obrázků. UDP to opravuje vytvořením nezaujatého Transformace Souřadnicového Systému, které zachovává sémantické zarovnání v různých souřadnicových prostorech během základních operací (oříznutí, změna velikosti, otočení, překlopení). UDP také zavádí nezaujaté transformace formátu klíčových bodů kódováním klíčových bodů do teplotních map bez zavedení pozičního zkreslení, dále zdokonalené procesem dekódování se znalostí Gaussova rozdělení. Tento přístup zpracování dat systematicky zlepšuje výkon modelu, jak bylo prokázáno v rozsáhlých testech na datatech COCO a CrowdPose, kde dosáhlo zvýšené přesnosti a snížené latence odvozování v modelech top-down a bottom-up [Ref].

3. Následující Zpracování a Zdokonalení Polohy

Jakmile jsou předpovídány klíčové body, použije se několik kroků následujícího zpracování k upřesnění odhadu polohy a zajištění stability v rámci snímků.

3.1 Vyhlazování Polohy

Golfové swingy zahrnují rychlý pohyb, který může zavést hluk nebo výkyvy v odhadovaných pozicích klíčových bodů v rámci snímků. Aby se to zmírnilo, použije se One-Euro Filter k vyhlazení trajektorií klíčových bodů v čase a zajištění, aby se malé, nefyzikální výkyvy v predikích klíčových bodů eliminovaly. One-Euro Filter funguje dynamickým přizpůsobením šířky pásma filtru na základě rychlosti pohybu, což je ideální pro scénáře jako golfové swingy, kde se pohyb výrazně liší v rychlosti v různých fázích (zpětný záběr, sestupný pohyb a follow-through).

3.2 Mechanismus Přeskakování Snímků

Pro další optimalizaci se implementuje mechanismus přeskakování snímků, kde se detekce provádí pouze na klíčových snímcích a odhad polohy se interpoluje pro mezilehlé snímky. To drasticky snižuje výpočetní zátěž bez obětování přesnosti v scénářích s omezeným pohybem mezi snímky, jako je analýza golfu swing v pomalém pohybu.

4. Časové Sledování a Konzistence Sekvence

Vzhledem k tomu, že golfové swingy jsou ze své podstaty sekvenční, je zachování časové konzistence v odhadu polohy vitální. RTMPose-X to řeší pomocí technik časového sledování, které zajišťují, že předpovědi klíčových bodů jsou konzistentní v rámci po sobě jdoucích snímků. To zahrnuje sledování pozic klíčových bodů v čase a zajištění, že jejich trajektorie následují realistické modely pohybu na základě biomechanických omezení.

4.1 Analýza Rychlosti a Zrychlení Klíčových Bodů

Kromě sledování pozic klíčových bodů RTMPose-X také odhaduje Rychlost a Zrychlení každého klíčového bodu. Tyto informace jsou zásadní pro analýzu dynamiky golfu swing a poskytují vhled do klíčových metrik výkonu, jako jsou:

Rychlost Swing: Vypočítává se na základě Rychlosti zápěstí během sestupného pohybu.

Hip Rotation: Analyzuje se prostřednictvím Úhlové Rychlosti kyčelních kloubů.

Dráha Hole a Rychlost Hlavy: Jsou odvozovány nepřímo z trajektorií zápěstí a loktů.

Tyto metriky lze porovnávat s profesionálními standardy, aby se poskytla zpětná vazba o mechanice swingu hráče.

5. Odvozování a Výkon v Reálném Čase

Celý kanál top-down je optimalizován pro výkon v reálném čase, což umožňuje odhad polohy na více než 90 FPS na moderních GPU. Použití vysoce efektivních architektur modelů (CSPNeXt) a rychlých technik odvozování (SimCC) zajišťuje, že systém může zpracovat vstup videa s vysokou snímkovou frekvencí, což jej činí vhodným pro zpětnou vazbu v reálném čase během tréninku.

6. Vyhodnocení a Validace

Modely RTMPose-X a RTMDet-M se vyhodnocují na standardních datatech, jako jsou COCO a MPII, s vynikajícím výkonem s průměrnou přesností (AP) 75,8% na datasetu COCO pro klíčové body těla. Tyto výsledky se validují proti vysvětleným anotacím v datatech golfových swingů, což zajišťuje robustnost modelu při zachycování dynamických pohybů sportu.

6.1 Metriky Výkonu

Střední Kvadratická Chyba (MSE): Používá se ke kvantifikaci přesnosti předpovědí klíčových bodů v porovnání se základními anotacemi.

Průměrná Přesnost (AP): Hodnotí celkový výkon modelu Odhadu polohy.

Čas Zpracování Snímku: Kontrolován tak, aby systém splňoval požadavky na reálný čas (<10 ms na snímek).

7. Závěr

Přístup shora dolů s použitím RTMPose-X a RTMDet-M poskytuje efektivní a přesnou metodu pro odhad polohy v reálném čase v analytice sportu, konkrétně pro analýzu golfu. Díky robustní detekci klíčových bodů, časové sledování a odvozování v reálném čase nabízí tato metodologie podrobné biomechanické poznatky o dynamice golfu, které pomáhají zlepšit výkon a prevenci zranění.

Reference

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset výzvy AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD:

[] Dataset Halpe:

[] Dataset PoseTrack18:

Databáze Object365: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf

Poslední aktualizace: 2025-03-05 | Zobrazit na oficiálních stránkách podpory