Miglioramento della Motion Capture Senza Marker nel Golf e nel Baseball utilizzando RTMPose e RTMDet: Un Approccio Top-Down

Miglioramento della Motion Capture Senza Marker nel Golf e nel Baseball utilizzando RTMPose e RTMDet: Un Approccio Top-Down

Riepilogo

Questo white paper documenta l’applicazione di RTMPose e RTMDet per la stima posturale accurata ed efficiente degli swing nel golf e nel baseball. Sfruttando tecniche all’avanguardia ottimizzate per prestazioni in tempo reale, questi modelli consentono il tracciamento dettagliato dei movimenti del corpo durante gli swing nel golf e nel baseball, una caratteristica critica per migliorare le prestazioni nell’analisi sportiva. Evidenziamo i vantaggi di un Approccio Top-Down, in cui un rilevatore RTMDet standard identifica il golfista e il giocatore di baseball in ciascun fotogramma, e RTMPose stima le posizioni delle articolazioni chiave del corpo.

1. Introduzione

La stima posturale è diventata fondamentale nell’analisi della prestazione sportiva, consentendo il tracciamento preciso dei movimenti degli atleti. Nel golf e nel baseball, l’acquisizione dei dati biomeccanici dello swing di un giocatore fornisce informazioni preziose sulla dinamica dello swing, aiutando i professionisti e gli amatori a perfezionare le loro tecniche. I metodi tradizionali di stima posturale 2D spesso affrontano sfide di latenza e precisione, soprattutto in scenari in tempo reale. Questo documento propone una soluzione utilizzando RTMPose e RTMDet all’interno del mmpose Framework per la stima posturale dettagliata durante gli swing nel golf e nel baseball.

2. Background

La complessità degli swing nel golf e nel baseball richiede una misurazione precisa dei movimenti del corpo. I metodi di stima posturale esistenti potrebbero non fornire la precisione necessaria per le prestazioni in tempo reale. I progressi nell’apprendimento profondo e nella visione artificiale hanno introdotto modelli come RTMPose e RTMDet, che offrono una precisione ed efficienza migliorate.

3. Approccio Top-Down con RTMdet e RTMpose

–inserire figura–

3. RTMPose: Un Modello di Stima Posturale ad Alte Prestazioni

RTMPose [1] è progettato per la stima posturale ad alte prestazioni e in tempo reale, ottimizzato per funzionare in modo efficiente su hardware limitato.

Caratteristiche Principali:

Architettura del Modello ed Efficienza: RTMpose utilizza CSPNeXt come backbone [1, 2], bilanciando velocità e accuratezza. CSPNeXt è ottimizzato per attività di densa previsione come la stima posturale e il rilevamento di oggetti, fornendo alta risoluzione e precisione mantenendo efficienza computazionale.

Previsione dei Punti Chiave: Impiega un algoritmo basato su SimCC [1, 3], trattando le posizioni orizzontali e verticali dei Punti Chiave come attività di classificazione separate. Questa rappresentazione compatta riduce il carico computazionale e si adatta alla distribuzione su vari dispositivi.

4. RTMDet: Il Backbone di Rilevamento

RTMDet [4] agisce come il rilevatore che precede RTMPose nella pipeline Top-Down, identificando la posizione del golfista o del giocatore di baseball in ciascun fotogramma.

Caratteristiche Principali:

Architettura del Modello ed Efficienza: RTMDet utilizza una versione modificata di CSPDarkNet [5] più addestrabile e precisa rispetto a molti modelli YOLO. La versione modificata sfrutta convoluzioni depth-wise a kernel grande per bilanciare complessità e velocità ed è efficiente su GPU e CPU. È ideale per applicazioni in tempo reale come il tracciamento della prestazione sportiva.

Versatilità: Gestisce vari compiti di rilevamento di oggetti, inclusa la segmentazione di istanze e il rilevamento di oggetti ruotati. Assicura la localizzazione precisa del giocatore, anche in scene dinamiche.

5. Vantaggi dell’utilizzo di RTMDet e RTMPose nell’Analisi dello Swing nel Golf e nel Baseball

5.1 Accuratezza Superiore in Scene Non Affollate

In configurazioni tipiche di golf/baseball con poche persone nel fotogramma, RTMDet isola il golfista/giocatore di baseball, consentendo a RTMPose di elaborare ogni persona rilevata con elevata accuratezza. Questo evita la complessità dei metodi bottom-up che elaborano tutti i Punti Chiave per tutte le persone nel fotogramma simultaneamente. L’Approccio Top-Down può anche includere un algoritmo di post-elaborazione di RTMdet che identifica la persona corretta (ad es. golfista o giocatore di baseball) prima di eseguire la stima posturale. Inoltre, RTMPose è stato pre-addestrato su materiale immagine esteso contenente

5.2 Calcolo Efficiente e Prestazione in Tempo Reale

Utilizzando modelli leggeri come RTMdet e RTMpose, si mantiene bassa la latenza, abilitando l’analisi dello swing in tempo reale su hardware consumer. Questo è particolarmente utile per fornire feedback live immediati durante le sessioni di coaching o allenamento. Il sistema di Motion Capture Senza Marker SwingCatalyst è uno dei pochi sistemi studio che fornisce feedback di Motion Capture live a golfisti e giocatori di baseball.

5.3 Analisi Dettagliata dei Punti Chiave

RTMPose rileva una configurazione di 26 Punti Chiave del corpo [6] visualizzati nella figura 1 sottostante essenziali per analizzare la cinematica dello swing nel golf e nel baseball. Halpe26 è una configurazione estesa che include marcatori aggiuntivi sui piedi e sulla testa rispetto alla configurazione Coco più standard con 17 marcatori.

–Inserire Figura–

6. Metodologia per la Motion Capture Senza Marker dello Swing nel Golf e nel Baseball

6.1 Fase di Rilevamento: RTMDet

Applicato ai fotogrammi video di un golfista o giocatore di baseball, RTMDet genera Riquadri di Delimitazione attorno al giocatore, che vengono passati a RTMPose. Questo focalizza la stima posturale su regioni immagine rilevanti, riducendo il carico computazionale.

–Inserire Immagine–

6.2 Fase di Stima Posturale: RTMPose

RTMPose stima le posizioni dei Punti Chiave all’interno del Riquadro di Delimitazione. Le articolazioni critiche per l’analisi dello swing nel golf e nel baseball includono i polsi, i gomiti, le spalle, le anche e le ginocchia. Questi Punti Chiave valutano gli angoli del corpo e le posizioni durante le fasi dello swing: backswing, downswing e follow-through.

–Inserire Immagine–

6.3 Metriche di Prestazione

Le prestazioni generali di RTMPose sono misurate utilizzando metriche come Average Precision (AP) su benchmark di stima posturale come MS COCO. Di seguito sono riportate le prestazioni dei modelli meglio classificati su benchmark Coco comunemente utilizzati. Sul dataset MS COCO val, RTMPose-X è il modello con le migliori prestazioni in grado di fornire feedback in tempo reale e raggiunge fino al 75,8% AP con frequenze fotogrammi superiori a ?? FPS su GPU consumer, rendendolo adatto per l’analisi sportiva ad alta velocità.

Rank Modello Risoluzione Dimensione/parametri (Milioni) AP Inferenza in tempo reale

1 Sapiens-2B 1024x768 2000 82.2 No

2 Sapiens-1B 1024x768 1000 82.1 No

3 Sapiens-0.6B 1024x768 600 81.2 No

4 Sapiens-0.3B 1024x768 300 79.6 No

5 VitPose-H 256x192 632 79.4 No

6 RTMPose-X 384x288 49 78.8 Sì

7 VitPose-L 256x192 307 78.6 No

8 RTMPose-L 384x288 28 78.3 Sì

9 HRFormer 256x192 43 77.2 No

10 HRNet-UDP 384x288 64 77.2 Sì

11 VitPose-B 256x192 86 77.0 Sì

12 RTMPose-L 256x198 28 76.7 Sì

13 RTMPose-M 384x288 14 76.6 Sì

14 HRNet 384x288 64 76.3 Sì

15 VitPose-S 256x192 43 75.8 Sì

16 RTMPose-M 256x192 14 74.9 Sì

17 SimpleBaseline 256x192 60 73.5 Sì

18 FastPose 256x192 79 73.3 Sì

7. Applicazione nell’Analisi dello Swing di Golf

Applicando il framework RTMPose-X e RTMDet-M:

Traccia i Movimenti delle Articolazioni Fotogramma per Fotogramma: Fornisce dati completi per analizzare ogni fase dello swing.

Fornisci Feedback in Tempo Reale: Consente approfondimenti immediati sulla postura e la forma dello swing durante le sessioni di allenamento.

Confronta con la Meccanica Ideale: Permette il confronto con la cinematica dello swing ideale per identificare le aree di miglioramento.

8. Conclusione

L’integrazione di RTMPose-X e RTMDet-M offre una soluzione potente per l’analisi dello swing di golf in tempo reale. Con elevata precisione, bassa latenza e compatibilità su diverse piattaforme hardware, questo approccio top-down fornisce approfondimenti dettagliati sulla meccanica dello swing. Ha un significativo potenziale nell’aiutare sia golfisti amatoriali che professionisti a migliorare le loro prestazioni.

9. Lavori Futuri

Gli sviluppi futuri potrebbero coinvolgere:

Integrazione di Algoritmi di Machine Learning: Per fornire analitiche predittive e suggerire regolazioni per migliorare l’efficienza dello swing.

Espansione a Scenari Multi-Persona: Migliorando l’applicabilità negli sport di squadra o negli ambienti di allenamento di gruppo.

Sviluppo di un’Interfaccia User-Friendly: Creazione di applicazioni o strumenti che rendono questa tecnologia accessibile a allenatori e atleti senza esperienza tecnica.

Appendice

Metodologia Dettagliata: Approccio Top-Down per la Stima Posturale dello Swing di Golf Utilizzando RTMPose-X e RTMDet-M

Panoramica

La metodologia descritta qui delinea i passaggi dettagliati coinvolti in un approccio top-down per la stima posturale in tempo reale di uno swing di golf e baseball, sfruttando i punti di forza di RTMPose per la localizzazione dei punti chiave e RTMDet per il rilevamento di oggetti. Il processo è diviso in diversi stadi: rilevamento, localizzazione dei punti chiave e post-elaborazione, ognuno dei quali contribuisce alla stima precisa ed efficiente delle articolazioni del corpo in uno swing di golf per l’analisi biomeccanica.

–Inserisci figura–

1. Fase di Rilevamento: Localizzazione in Tempo Reale con RTMDet-M

Il primo stadio dell’approccio top-down prevede il rilevamento del golfista all’interno di ogni fotogramma del video. Negli scenari sportivi, in particolare nel golf, la scena di solito consiste in un singolo giocatore, semplificando il compito di rilevamento rispetto alle scene affollate.

1.1 Architettura del Modello

RTMDet-M viene impiegato come rilevatore di oggetti nella pipeline. Utilizza una rete neurale convoluzionale (CNN) backbone, nello specifico il backbone CSPNeXt, progettato per ottimizzare le prestazioni del rilevamento di oggetti in tempo reale mantenendo un equilibrio tra velocità e precisione. Gli aspetti chiave dell’architettura includono:

Convoluzioni depth-wise a kernel grande: Queste sono utilizzate nei livelli backbone e neck, aumentando il campo ricettivo mantenendo un costo computazionale basso.

Feature pyramid network (FPN): Una tecnica di estrazione di caratteristiche multi-scala che consente il rilevamento di oggetti a varie scale, garantendo che il golfista possa essere rilevato indipendentemente dalla sua distanza dalla fotocamera.

1.2 Assegnazione Dinamica delle Etichette

RTMDet-M sfrutta una strategia di assegnazione dinamica delle etichette che migliora la precisione del rilevamento assegnando etichette soft agli oggetti in base a una combinazione di perdita di classificazione e localizzazione. L’assegnazione delle etichette è governata dall’algoritmo SimOTA, che seleziona dinamicamente i campioni positivi in base alla loro probabilità di corrispondere all’oggetto ground truth. Questo metodo garantisce un rilevamento robusto in condizioni di illuminazione e ambientali variabili spesso riscontrate negli scenari di golf all’aperto.

1.3 Predizione del Riquadro di Delimitazione

Il rilevatore genera Riquadri di Delimitazione che racchiudono il golfista in ogni fotogramma. Questi riquadri forniscono vincoli spaziali entro i quali il modello di Stima Posturale opererà, riducendo il carico computazionale della fase successiva di Stima Posturale concentrandosi solo sulle aree rilevanti del fotogramma. In questo contesto, RTMDet-M genera Riquadri di Delimitazione in tempo reale a oltre 300 FPS su hardware ad alte prestazioni, garantendo che possa stare al passo con la dinamica rapida di uno swing di golf.

1.4 Non-Maximum Suppression (NMS) per Persone

In scenari multi-persona (anche se rari nell’analisi dello swing di golf), RTMDet-M incorpora un algoritmo di Non-Maximum Suppression (NMS) posturale che elimina i rilevamenti ridondanti di Punti Chiave, assicurando che solo i rilevamenti più affidabili vengano conservati per tutti. Questo è fondamentale nei casi in cui i Riquadri di Delimitazione sovrapposti potrebbero essere rilevati in scene affollate o sequenze video.

1.5 Dataset di Addestramento e Prestazioni

RTMDet-M è addestrato su un compito di classificazione binaria sulle istanze di persone nel dataset Object356.

2. Fase di Stima Posturale: Localizzazione dei Punti Chiave RTMPose-X

Una volta stabilito il Riquadro di Delimitazione per il golfista, la fase successiva prevede la stima della posizione precisa delle articolazioni chiave del corpo all’interno di questa regione. RTMPose-X, un modello di Stima Posturale ad alte prestazioni, viene utilizzato a questo scopo.

2.1 Localizzazione dei Punti Chiave Basata su SimCC

RTMPose-X impiega l’algoritmo SimCC (Simple Coordinate Classification), che tratta la localizzazione dei Punti Chiave come un problema di classificazione. A differenza dei metodi tradizionali basati su Mappe Termiche, SimCC divide le coordinate x e y di ogni Punto Chiave in bin e classifica il bin esatto in cui si trova ogni Punto Chiave. Questo approccio riduce significativamente la complessità computazionale e migliora la velocità di inferenza mantenendo un’elevata precisione per compiti di Stima Posturale umana.

2.2 Backbone CSPNeXt

Similmente a RTMDet-M, RTMPose-X utilizza anche il backbone CSPNeXt, che è personalizzato per compiti di predizione densa come la Stima Posturale. Il backbone CSPNeXt è vantaggioso in questo scenario per le seguenti ragioni:

Architettura leggera: L’architettura del modello è progettata per minimizzare il numero di parametri massimizzando il throughput, rendendola ideale per applicazioni in tempo reale.

Estrazione efficiente delle caratteristiche: I livelli di estrazione delle caratteristiche di CSPNeXt sono ottimizzati per elaborare immagini ad alta risoluzione, il che è cruciale per rilevare dettagli piccoli in parti del corpo che si muovono velocemente durante uno swing di golf, come polsi, gomiti e ginocchia.

2.3 Rappresentazione dei Punti Chiave

RTMPose-X produce locazioni dei Punti Chiave per tutte le parti del corpo rilevanti, incluse:

Articolazioni del corpo superiore: Spalle, Gomiti, Polsi e Collo

Articolazioni del corpo inferiore: Anche, Ginocchia e Caviglie

Articolazioni aggiuntive: Testa, Colonna Vertebrale e altri Punti Chiave rilevanti per l’analisi dello swing

La risoluzione di 384x288 per le immagini di input garantisce che anche i movimenti sottili delle Articolazioni possano essere acquisiti accuratamente, mantenendo al contempo la capacità del sistema di funzionare in tempo reale.

2.4 Pre-elaborazione di RTMPose: Elaborazione Dati Imparziale (UDP)

Prima che l’immagine ritagliata venga immessa nel modello RTMpose, viene eseguito un passaggio di Elaborazione Dati Imparziale (UDP). UDP affronta i pregiudizi critici nell’elaborazione dei dati di RTMpose durante l’addestramento e il test, specificamente nelle trasformazioni del Sistema di coordinate e del formato dei Punti Chiave. Nelle pipeline convenzionali di Stima Posturale umana, operazioni standard come il capovolgimento e il ridimensionamento spesso disallineano gli output, in particolare a causa delle trasformazioni basate su pixel, che portano a perdita di precisione e mancato allineamento delle immagini capovolte. UDP corregge questi problemi stabilendo una Trasformazione del sistema di coordinate imparziale, preservando l’allineamento semantico attraverso diversi spazi di coordinate durante operazioni essenziali (ritaglio, ridimensionamento, rotazione, capovolgimento). UDP introduce anche la Trasformazione del formato dei Punti Chiave imparziale codificando i Punti Chiave in Mappe Termiche senza introdurre pregiudizio posizionale, ulteriormente affinata attraverso un processo di decodifica consapevole della distribuzione Gaussiana. Questo approccio di elaborazione dei dati migliora sistematicamente le prestazioni del modello, come dimostrato da test estesi sui dataset COCO e CrowdPose, dove ha raggiunto una precisione migliorata e una latenza di inferenza ridotta su modelli top-down e bottom-up [Ref].

3. Post-elaborazione e Affinamento Posturale

Una volta previsti i Punti Chiave, vengono applicate diverse fasi di post-elaborazione per affinare la Stima Posturale e garantire stabilità tra i fotogrammi.

3.1 Levigatura Posturale

Gli swing di golf comportano movimenti rapidi, che possono introdurre rumore o fluttuazioni nelle posizioni stimate dei Punti Chiave tra i fotogrammi. Per mitigare questo, viene applicato un Filtro One-Euro per levigare le traiettorie dei Punti Chiave nel tempo, assicurando che piccole fluttuazioni non fisiche nelle previsioni dei Punti Chiave vengano eliminate. Il Filtro One-Euro funziona regolando dinamicamente la larghezza di banda del Filtro in base alla velocità del movimento, il che è ideale per scenari come gli swing di golf, dove il movimento varia significativamente in velocità tra le diverse fasi (Backswing, Downswing e Follow-Through).

3.2 Meccanismo di Salto dei Fotogrammi

Per ulteriori ottimizzazioni, viene implementato un meccanismo di salto dei fotogrammi, in cui il rilevamento viene eseguito solo sui fotogrammi chiave e la Stima Posturale viene interpolata per i fotogrammi intermedi. Questo riduce drasticamente il carico computazionale senza sacrificare l’accuratezza in scenari con movimento limitato tra i fotogrammi, come l’analisi al rallentatore di uno swing di golf.

4. Tracciamento Temporale e Coerenza della Sequenza

Dato che gli swing di golf sono intrinsecamente sequenziali, il mantenimento della coerenza temporale nella Stima Posturale è vitale. RTMPose-X affronta questo attraverso tecniche di tracciamento temporale, che garantiscono che le previsioni dei Punti Chiave siano coerenti tra i fotogrammi consecutivi. Ciò comporta il tracciamento delle posizioni dei Punti Chiave nel tempo e l’assicurazione che le loro traiettorie seguano modelli di movimento realistici basati su vincoli biomeccanici.

4.1 Analisi di Velocità e Accelerazione dei Punti Chiave

Oltre al tracciamento delle posizioni dei Punti Chiave, RTMPose-X stima anche la Velocità e l’Accelerazione di ogni Punto Chiave. Queste informazioni sono critiche per analizzare la dinamica di uno swing di golf, fornendo intuizioni su metriche chiave di prestazione come:

Velocità dello Swing: Calcolata in base alla Velocità del polso durante il Downswing.

Rotazione dell’Anca: Analizzata attraverso la Velocità Rotatoria delle Articolazioni dell’Anca.

Traiettoria della Mazza e velocità della testa: Inferita indirettamente dalle traiettorie del polso e del gomito.

Queste Metriche possono essere confrontate con benchmark professionali per offrire feedback sulla meccanica dello swing del giocatore.

5. Inferenza e Prestazioni in Tempo Reale

L’intera pipeline top-down è ottimizzata per prestazioni in tempo reale, consentendo la Stima Posturale a oltre 90 FPS su GPU moderne. L’uso di architetture di modello altamente efficienti (CSPNeXt) e tecniche di inferenza veloce (SimCC) garantisce che il sistema possa gestire input video ad alta frequenza fotogrammi, rendendolo adatto per feedback in tempo reale durante le sessioni di allenamento.

6. Valutazione e Convalida

I modelli RTMPose-X e RTMDet-M vengono valutati su dataset standard come COCO e MPII, mostrando forti prestazioni con una precisione media (AP) del 75,8% sul dataset COCO per i Punti Chiave del corpo. Questi risultati vengono convalidati rispetto alle annotazioni ground-truth nei dataset di swing di golf, assicurando la robustezza del modello nel catturare movimenti dinamici dello sport.

6.1 Metriche di Prestazione

Mean Squared Error (MSE): Utilizzato per quantificare l’accuratezza delle predizioni dei Punti Chiave rispetto alle annotazioni di verità assoluta.

Average Precision (AP): Valuta le prestazioni generali del modello di Stima Posturale.

Tempo di Elaborazione dei Fotogrammi: Sottoposto a benchmark per garantire che il sistema soddisfi i requisiti real-time (<10 ms per fotogramma).

7. Conclusione

L’approccio Top-Down utilizzando RTMPose-X e RTMDet-M fornisce un metodo efficiente e accurato per la Stima Posturale in tempo reale nell’analisi sportiva, in particolare per l’analisi dello swing nel golf. Con un robusto rilevamento dei Punti Chiave, tracciamento temporale e inferenza real-time, questa metodologia offre approfondimenti biomeccanici dettagliati sulla dinamica dello swing nel golf, aiutando nel miglioramento delle prestazioni e nella prevenzione degli infortuni.

Riferimenti

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset di sfida AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: