Zwiększanie dokładności bezznacznikowego systemu motion capture dla swingu golfowego i baseballowego przy użyciu RTMPose i RTMDet: Podejście od góry do dołu

Zwiększanie dokładności bezznacznikowego systemu motion capture dla swingu golfowego i baseballowego przy użyciu RTMPose i RTMDet: Podejście od góry do dołu

Streszczenie

Niniejszy dokument techniczny dokumentuje zastosowanie RTMPose i RTMDet do dokładnej i efektywnej estymacji pozycji podczas swingów golfowych i baseballowych. Wykorzystując najnowocześniejsze techniki zoptymalizowane do pracy w czasie rzeczywistym, modele te umożliwiają szczegółowe śledzenie ruchów ciała podczas swingów golfowych i baseballowych — kluczową funkcję dla poprawy wydajności w analizie sportowej. Podkreślamy zalety podejścia od góry do dołu, gdzie gotowy detektor RTMDet identyfikuje golfistę i gracza baseballowego w każdej klatce, a RTMPose estymuje pozycje kluczowych punktów kluczowych ciała.

1. Wprowadzenie

Estymacja pozycji stała się kluczowa w analizie wydajności sportowej, umożliwiając precyzyjne śledzenie ruchów sportowców. W golfe i baseballu przechwytywanie danych biomechanicznych swingu zawodnika dostarcza cennych informacji na temat dynamiki swingu, pomagając zarówno profesjonalistom, jak i amatorom w doskonaleniu ich technik. Tradycyjne dwuwymiarowe metody estymacji pozycji często napotykają problemy z opóźnieniami i dokładnością, szczególnie w scenariuszach czasu rzeczywistego. Niniejszy dokument proponuje rozwiązanie wykorzystujące RTMPose i RTMDet w ramach mmpose Framework do szczegółowej estymacji pozycji podczas swingów golfowych i baseballowych.

2. Tło

Złożoność swingów golfowych i baseballowych wymaga precyzyjnego pomiaru ruchów ciała. Istniejące metody estymacji pozycji mogą nie zapewniać niezbędnej dokładności do pracy w czasie rzeczywistym. Postęp w uczeniu głębokim i wizji komputerowej wprowadził modele takie jak RTMPose i RTMDet, które oferują ulepszoną dokładność i efektywność.

3. Podejście od góry do dołu z RTMdet i RTMpose

–insert figure–

3. RTMPose: Model estymacji pozycji o wysokiej wydajności

RTMPose [1] jest zaprojektowany do wysokowydajnej estymacji pozycji w czasie rzeczywistym, zoptymalizowany do działania efektywnie na sprzęcie o ograniczonych zasobach.

Kluczowe cechy:

Architektura modelu i efektywność: RTMpose wykorzystuje CSPNeXt jako backbone [1, 2], balansując szybkość i dokładność. CSPNeXt jest zoptymalizowany dla zadań gęstej predykcji, takich jak estymacja pozycji i detekcja obiektów, zapewniając wysoką rozdzielczość i precyzję przy zachowaniu wydajności obliczeniowej.

Predykcja punktów kluczowych: Wykorzystuje algorytm oparty na SimCC [1, 3], traktując poziome i pionowe pozycje punktów kluczowych jako osobne zadania klasyfikacyjne. Ta kompaktowa reprezentacja zmniejsza obciążenie obliczeniowe i jest odpowiednia do wdrożenia na różnych urządzeniach.

4. RTMDet: Backbone detekcji

RTMDet [4] pełni funkcję detektora poprzedzającego RTMPose w potoku od góry do dołu, identyfikując lokalizację golfisty lub gracza baseballowego w każdej klatce.

Kluczowe cechy:

Architektura modelu i efektywność: RTMDet wykorzystuje zmodyfikowaną wersję CSPDarkNet [5], bardziej trasowalną i precyzyjną niż wiele modeli YOLO. Zmodyfikowana wersja wykorzystuje splotki depth-wise o dużych kernelach, aby zbalansować złożoność i szybkość, oraz jest efektywna zarówno na GPU, jak i CPU. Jest idealna dla aplikacji czasu rzeczywistego, takich jak śledzenie wydajności sportowej.

Wszechstronność: Obsługuje różne zadania detekcji obiektów, w tym segmentację instancji i rotowaną detekcję obiektów. Zapewnia precyzyjną lokalizację zawodnika, nawet w dynamicznych scenach.

5. Zalety użycia RTMDet i RTMPose w analizie swingu golfowego i baseballowego

5.1 Wyższa dokładność w scenach słabo zagęszczonych

W typowych ustawieniach golfowych/baseballowych z nieloma osobami w klatce, RTMDet izoluje golfistę/gracza baseballowego, umożliwiając RTMPose przetworzenie każdej wykrytej osoby z wysoką dokładnością. Unika to złożoności metod od dołu do góry, które przetwarzają wszystkie punkty kluczowe dla wszystkich osób w klatce jednocześnie. Podejście od góry do dołu może również uwzględniać algorytm postprocesowania RTMdet identyfikujący właściwą osobę (tj. golfistę lub gracza baseballowego) przed wykonaniem estymacji pozycji. Ponadto RTMPose zostały wstępnie wytrenowane na rozszerzonym materiale obrazu zawierającym

5.2 Efektywna obliczeniowo i wydajna w czasie rzeczywistym

Wykorzystanie lekkich modeli, takich jak RTMdet i RTMpose, utrzymuje niskie opóźnienia, umożliwiając analizę swingu w czasie rzeczywistym na sprzęcie konsumenckim. Jest to szczególnie przydatne do zapewnienia natychmiastowej informacji zwrotnej na żywo podczas sesji treningowych lub coachingu. System Swing Catalyst bezznacznikowego motion capture jest jednym z niewielu systemów studyjnych, które zapewniają golfistom i graczom baseballowym informacje zwrotne motion capture na żywo.

5.3 Szczegółowa analiza punktów kluczowych

RTMPose wykrywa zestaw 26 punktów kluczowych ciała [6] wyświetlonych na rysunku 1 poniżej, niezbędnych do analizy kinematyki swingu golfowego i baseballowego. Halpe26 to rozszerzony zestaw, który zawiera dodatkowe znaczniki na stopach i głowie w porównaniu ze standardowym zestawem Coco z 17 znacznikami.

–Insert Figure–

6. Metodologia bezznacznikowego systemu motion capture dla swingu golfowego i baseballowego

6.1 Faza detekcji: RTMDet

Zastosowany do klatek wideo golfisty lub gracza baseballowego, RTMDet generuje prostokąty ograniczające wokół zawodnika, które są przekazywane do RTMPose. Skupia to estymację pozycji na odpowiednich regionach obrazu, zmniejszając obciążenie obliczeniowe.

–Insert Image–

6.2 Faza estymacji pozycji: RTMPose

RTMPose estymuje pozycje punktów kluczowych w obrębie prostokąta ograniczającego. Krytyczne stawy do analizy swingu golfowego i baseballowego to nadgarstki, łokcie, ramiona, biodra i kolana. Te punkty kluczowe oceniają kąty ciała i pozycje podczas faz swingu: zamachu wstecz, zamachu schodzącego i przepachu.

–Insert Image–

6.3 Metryki wydajności

Ogólna wydajność RTMPose jest mierzona za pomocą metryk takich jak Average Precision (AP) na benchmarkach estymacji pozycji, takich jak MS COCO. Poniżej znajduje się wydajność najlepiej sklasyfikowanych modeli na powszechnie używanym benchmarku Coco. Na zbiorze walidacyjnym MS COCO, RTMPose-X jest najlepiej działającym modelem zdolnym do zapewnienia informacji zwrotnej w czasie rzeczywistym i osiąga do 75,8% AP z szybkością klatek przekraczającą ?? FPS na konsumenckich GPU, co czyni go odpowiednim do analizy sportów wysoka-szybkościowych.

Ranga Model Rozdzielczość Rozmiar/parametry (Mln) AP Inferencja czasu rzeczywistego

1 Sapiens-2B 1024x768 2000 82,2 Nie

2 Sapiens-1B 1024x768 1000 82,1 Nie

3 Sapiens-0.6B 1024x768 600 81,2 Nie

4 Sapiens-0.3B 1024x768 300 79.6 Nie

5 VitPose-H 256x192 632 79.4 Nie

6 RTMPose-X 384x288 49 78.8 Tak

7 VitPose-L 256x192 307 78.6 Nie

8 RTMPose-L 384x288 28 78.3 Tak

9 HRFormer 256x192 43 77.2 Nie

10 HRNet-UDP 384x288 64 77.2 Tak

11 VitPose-B 256x192 86 77.0 Tak

12 RTMPose-L 256x198 28 76.7 Tak

13 RTMPose-M 384x288 14 76.6 Tak

14 HRNet 384x288 64 76.3 Tak

15 VitPose-S 256x192 43 75.8 Tak

16 RTMPose-M 256x192 14 74.9 Tak

17 SimpleBaseline 256x192 60 73.5 Tak

18 FastPose 256x192 79 73.3 Tak

7. Zastosowanie w analizie swingu golfowego

Poprzez zastosowanie frameworku RTMPose-X i RTMDet-M:

Śledź ruchy stawów klatka po klatce: Zapewnia kompleksowe dane do analizy każdej fazy swingu.

Udzielaj informacji zwrotnych w czasie rzeczywistym: Umożliwia natychmiastowy wgląd w posturę i formę swingu podczas sesji treningowych.

Porównaj z idealną mechaniką: Pozwala porównać ze wzorcową kinematyką swingu, aby zidentyfikować obszary do poprawy.

8. Wnioski

Integracja RTMPose-X i RTMDet-M oferuje potężne rozwiązanie do analizy swingu golfowego w czasie rzeczywistym. Dzięki wysokiej precyzji, niskiej latencji i kompatybilności na różnych platformach sprzętowych, to podejście od góry do dołu zapewnia szczegółowy wgląd w mechanikę swingu. Ma znaczny potencjał, aby wspomóc zarówno amatorskich, jak i profesjonalnych golfistów w poprawie ich wydajności.

9. Przyszłe prace

Przyszłe rozwijanie mogłoby obejmować:

Integracja algorytmów uczenia maszynowego: Aby zapewniać analitykę predykcyjną i sugerować korekty w celu poprawy efektywności swingu.

Rozszerzenie do scenariuszy wieloosobowych: Wzmocnienie zastosowania w sportach drużynowych lub środowiskach treningowych grupowych.

Opracowanie interfejsu przyjaznego użytkownikowi: Tworzenie aplikacji lub narzędzi, które uczynią tę technologię dostępną dla trenerów i sportowców bez specjalistycznej wiedzy technicznej.

Dodatek

Szczegółowa metodologia: Podejście od góry do dołu dla estymacji pozycji swingu golfowego przy użyciu RTMPose-X i RTMDet-M

Przegląd

Opisana tutaj metodologia zawiera szczegółowe kroki zaangażowane w podejście od góry do dołu dla estymacji pozycji w czasie rzeczywistym swingu golfa i baseballu, wykorzystując mocne strony RTMPose do lokalizacji Punktów Kluczowych i RTMDet do detekcji obiektów. Proces dzieli się na kilka etapów: detekcję, lokalizację Punktów Kluczowych i postprocesowanie, z których każdy przyczynia się do precyzyjnej i efektywnej estymacji stawów ciała w swingu golfowym dla analizy biomechanicznej.

–Insert figure–

1. Faza detekcji: lokalizacja w czasie rzeczywistym z RTMDet-M

Pierwszy etap podejścia od góry do dołu obejmuje wykrycie golfisty w każdej klatce wideo. W scenariuszach sportowych, szczególnie golfie, scena zwykle składa się z jednego gracza, co upraszcza zadanie detekcji w porównaniu ze scenami tłumów.

1.1 Architektura modelu

RTMDet-M jest stosowany jako detektor obiektów w potoku. Używa splotowej sieci neuronowej (CNN) z szkieletem, konkretnie szkieletem CSPNeXt, zaprojektowanym w celu optymalizacji wydajności detekcji obiektów w czasie rzeczywistym przy utrzymaniu równowagi między szybkością a dokładnością. Kluczowe aspekty architektury obejmują:

Sploty głębokie o dużych jądrach: Są one wykorzystywane w warstwach szkieletu i szyi, zwiększając pole recepcyjne przy jednoczesnym utrzymaniu niskiego kosztu obliczeniowego.

Sieć piramidy cech (FPN): Technika ekstrakcji cech wieloskalowych, która pozwala na wykrycie obiektów w różnych skalach, zapewniając, że golfista może być wykryty niezależnie od jego odległości od kamery.

1.2 Dynamiczne przypisanie etykiet

RTMDet-M wykorzystuje dynamiczną strategię przypisywania etykiet, która poprawia dokładność detekcji poprzez przypisanie miękkich etykiet obiektom na podstawie kombinacji strat klasyfikacji i lokalizacji. Przypisanie etykiet jest regulowane algorytmem SimOTA, który dynamicznie wybiera dodatnie próbki na podstawie ich prawdopodobieństwa dopasowania do obiektu bazowego. Ta metoda zapewnia niezawodną detekcję w zmiennych warunkach oświetlenia i środowiskowych, często spotykanych w zewnętrznych scenach golfowych.

1.3 Predykcja Prostokąta Ograniczającego

Detektor generuje Prostokąty Ograniczające, które obejmują golfistę w każdej klatce. Te Prostokąty Ograniczające zapewniają ograniczenia przestrzenne, w obrębie których będzie działać model estymacji pozycji, zmniejszając obciążenie obliczeniowe następnej fazy estymacji pozycji poprzez skupienie się wyłącznie na istotnych obszarach klatki. W tym kontekście RTMDet-M generuje Prostokąty Ograniczające w czasie rzeczywistym z prędkością ponad 300 FPS na sprzęcie wysokowydajnym, zapewniając, że może nadążyć za szybką dynamiką swingu golfowego.

1.4 Supresja Niemaximów dla Osób (NMS)

W scenariuszach wieloosobowych (chociaż rzadkich w analizie swing’u golfowego), RTMDet-M zawiera algorytm supresji niemaximów (NMS) dla pozycji, który eliminuje nadmiarowe detekcje Punktów Kluczowych, zapewniając, że dla każdego sportowca zachowywane są tylko najbardziej pewne detekcje. Jest to kluczowe w przypadkach, gdy mogą być wykryte nakładające się Prostokąty Ograniczające w zatłoczonych scenach lub sekwencjach wideo.

1.5 Dataset treningowy i Wydajność

RTMDet-M jest trenowany na zadaniu klasyfikacji binarnej na instancjach osób w Dataset Object356.

2. Faza Estymacji Pozycji: Lokalizacja Punktów Kluczowych RTMPose-X

Po ustaleniu Prostokąta Ograniczającego dla golfisty, następna faza polega na estymacji dokładnej lokalizacji kluczowych Stawów ciała w obrębie tego regionu. RTMPose-X, wysokowydajny model estymacji pozycji, jest wykorzystywany do tego celu.

2.1 Lokalizacja Punktów Kluczowych oparta na SimCC

RTMPose-X wykorzystuje algorytm SimCC (Simple Coordinate Classification), który traktuje lokalizację Punktów Kluczowych jako problem klasyfikacji. W przeciwieństwie do tradycyjnych metod opartych na mapach ciepła, SimCC dzieli współrzędne x i y każdego Punktu Kluczowego na przedziały i klasyfikuje dokładny przedział, w którym znajduje się każdy Punkt Kluczowy. Takie podejście znacznie zmniejsza złożoność obliczeniową i poprawia szybkość wnioskowania, zachowując wysoką dokładność dla zadań estymacji pozycji człowieka.

2.2 Kość grzbietowa CSPNeXt

Podobnie jak RTMDet-M, RTMPose-X również używa kości grzbietowej CSPNeXt, która jest dostosowana do zadań predykcji gęstej, takich jak estymacja pozycji. Kość grzbietowa CSPNeXt jest korzystna w tym scenariuszu z następujących powodów:

Architektura lekka: Architektura modelu jest zaprojektowana w celu minimalizacji liczby parametrów przy maksymalizacji wydajności, co czyni ją idealną dla aplikacji czasu rzeczywistego.

Efektywna ekstrakcja cech: Warstwy ekstrakcji cech CSPNeXt są zoptymalizowane do przetwarzania obrazów o wysokiej rozdzielczości, co jest kluczowe do detekcji drobnych szczegółów w szybko poruszających się częściach ciała podczas swingu golfowego, takich jak nadgarstki, łokcie i kolana.

2.3 Reprezentacja Punktów Kluczowych

RTMPose-X generuje lokalizacje Punktów Kluczowych dla wszystkich istotnych części ciała, w tym:

Stawy górnej części ciała: ramiona, łokcie, nadgarstki i szyja

Stawy dolnej części ciała: biodra, kolana i kostki

Dodatkowe stawy: głowa, kregosłup i inne kluczowe punkty istotne dla analizy swingu

Rozdzielczość 384x288 dla obrazów wejściowych zapewnia, że nawet subtelne ruchy w stawach mogą być przchwycone dokładnie, jednocześnie utrzymując zdolność systemu do pracy w czasie rzeczywistym.

2.4 Preprocesowanie RTMPose: Bezstronna Obróbka Danych (UDP)

Zanim obcięty obraz zostanie wprowadzony do modelu RTMPose, wykonywany jest krok Bezstronnej Obróbki Danych (UDP). UDP eliminuje krytyczne odchylenia w obróbce danych RTMPose podczas trenowania i testowania, szczególnie w transformacjach Układu Współrzędnych i formatach Punktów Kluczowych. W konwencjonalnych potokach estymacji pozycji człowieka standardowe operacje, takie jak odbicie lustrzane i zmiana rozmiaru, często misalignują wyniki, szczególnie ze względu na transformacje oparte na pikselach, które prowadzą do utraty precyzji i niedopasowania odbitych obrazów. UDP koryguje to poprzez ustalenie bezstronnej Transformacji Układu Współrzędnych, zachowując wyrównanie semantyczne między różnymi przestrzeniami współrzędnych podczas operacji zasadniczych (kadrowanie, zmiana rozmiaru, rotacja, odbicie). UDP wprowadza również bezstronną Transformację formatu Punktów Kluczowych poprzez kodowanie Punktów Kluczowych w mapy ciepła bez wprowadzania odchylenia pozycji, dalej udoskonalone poprzez proces dekodowania świadomy rozkładu Gaussa. To podejście do obróbki danych systematycznie poprawia wydajność modelu, co pokazano w rozbudowanych testach na dataset COCO i CrowdPose, gdzie osiągnęło wzmocnioną dokładność i zmniejszoną opóźnienie wnioskowania dla modeli top-down i bottom-up [Ref].

3. Postprocesowanie i Udoskonalenie Pozycji

Po przewidzeniu Punktów Kluczowych stosuje się kilka kroków postprocesowania w celu udoskonalenia estymacji pozycji i zapewnienia stabilności na przestrzeni klatek.

3.1 Wygładzanie Pozycji

Swingi golfowe obejmują szybkie ruchy, które mogą wprowadzać szum lub fluktuacje w szacunkowych pozycjach Punktów Kluczowych na przestrzeni klatek. Aby tego uniknąć, stosuje się Filtr One-Euro w celu wygładzenia trajektorii Punktów Kluczowych w czasie, zapewniając, że małe, niemożliwe fizykalne fluktuacje w przewidywaniach Punktów Kluczowych są eliminowane. Filtr One-Euro działa poprzez dynamiczną regulację szerokości pasma filtra na podstawie prędkości ruchu, co jest idealne dla scenariuszy takich jak swingi golfowe, gdzie ruch znacznie zmienia się prędkością na różnych fazach (Zamach Wstecz, Zamach Schodzący i Przepach).

3.2 Mechanizm Pominięcia Klatek

Dla dalszej optymalizacji implementowany jest mechanizm pominięcia klatek, gdzie detekcja jest wykonywana wyłącznie na klatkach kluczowych, a estymacja pozycji jest interpolowana dla klatek pośrednich. To drastycznie zmniejsza obciążenie obliczeniowe bez poświęcania dokładności w scenariuszach z ograniczonym ruchem między klatkami, takich jak analiza swingu golfowego w zwolnieniu.

4. Śledzenie Czasowe i Spójność Sekwencji

Biorąc pod uwagę, że swingi golfowe są z natury sekwencyjne, utrzymanie spójności czasowej w estymacji pozycji jest niezbędne. RTMPose-X rozwiązuje to poprzez techniki śledzenia czasowego, które zapewniają, że przewidywania Punktów Kluczowych są spójne na przestrzeni kolejnych klatek. Obejmuje to śledzenie pozycji Punktów Kluczowych w czasie i zapewnienie, że ich trajektorie podążają za realistycznymi wzorcami ruchu na podstawie ograniczeń biomechanicznych.

4.1 Analiza Prędkości i Przyspieszenia Punktów Kluczowych

Oprócz śledzenia pozycji Punktów Kluczowych, RTMPose-X także szacuje Prędkość i Przyspieszenie każdego Punktu Kluczowego. Informacja ta jest krytyczna dla analizy dynamiki swingu golfowego, zapewniając wgląd w kluczowe metryki wydajności, takie jak:

Prędkość Zamachu: Obliczana na podstawie Prędkości nadgarstka podczas Zamachu Schodzącego.

Rotacja Bioder: Analizowana poprzez Prędkość Kątową Stawów Biodrowych.

Tor Kija i prędkość głowy: Wnioskowana pośrednio z trajektorii nadgarstka i łokcia.

Te metryki można porównywać z profesjonalnymi benchmarkami, aby zapewnić informację zwrotną na temat Mechaniki Swingu gracza.

5. Wnioskowanie i Wydajność Czasu Rzeczywistego

Cały potok top-down jest zoptymalizowany dla wydajności czasu rzeczywistego, umożliwiając estymację pozycji z prędkością ponad 90 FPS na nowoczesnych GPU. Użycie wysoce wydajnych architektur modeli (CSPNeXt) i szybkich technik wnioskowania (SimCC) zapewnia, że system może obsługiwać wejście wideo o wysokiej szybkości klatek, co czyni go odpowiednim do sprzężenia zwrotnego w czasie rzeczywistym podczas sesji treningowych.

6. Ewaluacja i Walidacja

Modele RTMPose-X i RTMDet-M są ewaluowane na standardowych dataset, takich jak COCO i MPII, wykazując silną wydajność ze średnią precyzją (AP) 75,8% na dataset COCO dla Punktów Kluczowych ciała. Te wyniki są walidowane względem adnotacji ground-truth w dataset swing’u golfowego, zapewniając solidność modelu w przechwytywaniu dynamicznych ruchów sportowych.

6.1 Metryki Wydajności

Średniokwadratowy Błąd (MSE): Używany do ilościowego określenia dokładności predykcji Punktów Kluczowych w porównaniu z adnotacjami rzeczywistości (ground truth).

Średnia Precyzja (AP): Ocenia ogólną Wydajność modelu Estymacji Pozycji.

Czas Przetwarzania Klatki: Testowany, aby upewnić się, że system spełnia wymagania pracy w czasie rzeczywistym (<10 ms na klatkę).

7. Podsumowanie

Podejście od góry do dołu z wykorzystaniem RTMPose-X i RTMDet-M zapewnia efektywną i dokładną metodę Estymacji Pozycji w czasie rzeczywistym w analizie sportowej, szczególnie do analizy golf swing’u. Dzięki niezawodnej detekcji Punktów Kluczowych, śledzeniu temporalnemu i wnioskowaniu w czasie rzeczywistym metodologia ta oferuje szczegółowe wglądy biomechaniczne w dynamikę golf swing’u, wspierając poprawę wydajności i zapobieganie urazom.

Odniesienia

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset wyzwania AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: