Mejorando la Captura de Movimiento sin Marcadores en Golf y Béisbol Usando RTMPose y RTMDet: Un Enfoque Top-Down

Mejorando la Captura de Movimiento sin Marcadores en Golf y Béisbol Usando RTMPose y RTMDet: Un Enfoque Top-Down

Resumen Ejecutivo

Este documento técnico documenta la aplicación de RTMPose y RTMDet para la estimación de postura precisa y eficiente en swings de golf y béisbol. Aprovechando técnicas de última generación optimizadas para rendimiento en tiempo real, estos modelos permiten el seguimiento detallado de los movimientos corporales durante swings de golf y béisbol, una característica crítica para mejorar el rendimiento en análisis deportivo. Destacamos las ventajas de un enfoque top-down, donde un detector RTMDet listo para usar identifica al golfista y jugador de béisbol en cada fotograma, y RTMPose estima las posiciones de las articulaciones clave del cuerpo.

1. Introducción

La estimación de postura se ha convertido en un elemento fundamental en el análisis del rendimiento deportivo, permitiendo el seguimiento preciso de los movimientos de los atletas. En golf y béisbol, la captura de datos biomecánicos del swing de un jugador proporciona información valiosa sobre la dinámica del swing, ayudando a profesionales y aficionados a refinar sus técnicas. Los métodos tradicionales de estimación de postura 2D a menudo enfrentan desafíos de latencia y precisión, especialmente en escenarios en tiempo real. Este documento propone una solución utilizando RTMPose y RTMDet dentro del marco de trabajo mmpose Framework para estimación detallada de postura durante swings de golf y béisbol.

2. Antecedentes

La complejidad de los swings de golf y béisbol requiere medición precisa de los movimientos corporales. Los métodos existentes de estimación de postura pueden no proporcionar la precisión necesaria para el rendimiento en tiempo real. Los avances en aprendizaje profundo y visión por computadora han introducido modelos como RTMPose y RTMDet, que ofrecen mayor precisión y eficiencia.

3. Enfoque top-down con RTMdet y RTMpose

–insert figure–

3. RTMPose: Un Modelo de Estimación de Postura de Alto Rendimiento

RTMPose [1] está diseñado para estimación de postura en tiempo real de alto rendimiento, optimizado para ejecutarse eficientemente en hardware limitado.

Características Principales:

Arquitectura del Modelo y Eficiencia: RTMpose utiliza CSPNeXt como su estructura base [1, 2], equilibrando velocidad y precisión. CSPNeXt está optimizado para tareas de predicción densa como estimación de postura y detección de objetos, proporcionando alta resolución y precisión mientras mantiene eficiencia computacional.

Predicción de Puntos Clave: Emplea un algoritmo basado en SimCC [1, 3], tratando las posiciones horizontales y verticales de los puntos clave como tareas de clasificación separadas. Esta representación compacta reduce la carga computacional y es adecuada para implementación en diversos dispositivos.

4. RTMDet: El Detector Base

RTMDet [4] actúa como el detector que precede a RTMPose en el pipeline top-down, identificando la ubicación del golfista o jugador de béisbol dentro de cada fotograma.

Características Principales:

Arquitectura del Modelo y Eficiencia: RTMDet utiliza una versión modificada de CSPDarkNet [5] más entrenable y precisa que muchos de los modelos YOLO. La versión modificada aprovecha convoluciones depth-wise de núcleo grande para equilibrar complejidad y velocidad, y es eficiente tanto en GPU como en CPU. Es ideal para aplicaciones en tiempo real como seguimiento del rendimiento deportivo.

Versatilidad: Maneja diversas tareas de detección de objetos, incluyendo segmentación de instancias y detección de objetos rotados. Asegura localización precisa del jugador, incluso en escenas dinámicas.

5. Ventajas de Usar RTMDet y RTMPose en Análisis de Swing de Golf y Béisbol

5.1 Mayor Precisión en Escenas sin Aglomeración

En configuraciones típicas de golf/béisbol con pocos individuos en el fotograma, RTMDet aísla al golfista/jugador de béisbol, permitiendo que RTMPose procese cada persona detectada con alta precisión. Esto evita la complejidad de los métodos bottom-up que procesan todos los puntos clave para todas las personas en el fotograma simultáneamente. El enfoque top-down también puede incluir un algoritmo de postprocesamiento de RTMdet que identifica la persona correcta (es decir, golfista o jugador de béisbol) antes de realizar la estimación de postura. Además, RTMPose ha sido preentrenado en material de imagen extendido que contiene

5.2 Computación Eficiente y Rendimiento en Tiempo Real

Utilizando modelos ligeros, como RTMdet y RTMpose, se mantiene baja latencia, permitiendo análisis de swing en tiempo real en hardware de nivel consumidor. Esto es particularmente útil para proporcionar retroalimentación en vivo inmediata durante sesiones de entrenamiento o coaching. El sistema de captura de movimiento sin marcadores Swing Catalyst es uno de pocos sistemas de estudio que proporciona retroalimentación de captura de movimiento en vivo a golfistas y jugadores de béisbol.

5.3 Análisis Detallado de Puntos Clave

RTMPose detecta un conjunto de 26 puntos clave del cuerpo [6] mostrados en la figura 1 a continuación, esenciales para analizar la cinemática del swing de golf y béisbol. Halpe26 es un conjunto extendido que incluye marcadores adicionales en los pies y la cabeza en comparación con el conjunto Coco más estándar con 17 marcadores.

–Insert Figure–

6. Metodología para Captura de Movimiento sin Marcadores en Swings de Golf y Béisbol

6.1 Fase de Detección: RTMDet

Aplicado a fotogramas de video de un golfista o jugador de béisbol, RTMDet genera cuadros delimitadores alrededor del jugador, que se pasan a RTMPose. Esto enfoca la estimación de postura en regiones de imagen relevantes, reduciendo la carga computacional.

–Insert Image–

6.2 Fase de Estimación de Postura: RTMPose

RTMPose estima posiciones de puntos clave dentro del cuadro delimitador. Las articulaciones críticas para análisis de swing de golf y béisbol incluyen muñecas, codos, hombros, caderas y rodillas. Estos puntos clave evalúan ángulos corporales y posiciones durante las fases del swing: backswing, bajada y follow-through.

–Insert Image–

6.3 Métricas de Rendimiento

El rendimiento general de RTMPose se mide utilizando métricas como Precisión Promedio (AP) en benchmarks de estimación de postura como MS COCO. A continuación se muestra el rendimiento de los modelos mejor clasificados en el benchmark Coco comúnmente utilizado. En el dataset de validación MS COCO, RTMPose-X es el modelo de mejor rendimiento capaz de proporcionar retroalimentación en tiempo real y logra hasta 75.8% AP con velocidades de fotogramas superiores a ?? FPS en GPUs de nivel consumidor, haciéndolo adecuado para análisis de deportes de alta velocidad.

Rango Modelo Resolución Tamaño/parámetros (Mill) AP Inferencia en tiempo real

1 Sapiens-2B 1024x768 2000 82.2 No

2 Sapiens-1B 1024x768 1000 82.1 No

3 Sapiens-0.6B 1024x768 600 81.2 No

4 Sapiens-0.3B 1024x768 300 79.6 No

5 VitPose-H 256x192 632 79.4 No

6 RTMPose-X 384x288 49 78.8 Sí

7 VitPose-L 256x192 307 78.6 No

8 RTMPose-L 384x288 28 78.3 Sí

9 HRFormer 256x192 43 77.2 No

10 HRNet-UDP 384x288 64 77.2 Sí

11 VitPose-B 256x192 86 77.0 Sí

12 RTMPose-L 256x198 28 76.7 Sí

13 RTMPose-M 384x288 14 76.6 Sí

14 HRNet 384x288 64 76.3 Sí

15 VitPose-S 256x192 43 75.8 Sí

16 RTMPose-M 256x192 14 74.9 Sí

17 SimpleBaseline 256x192 60 73.5 Sí

18 FastPose 256x192 79 73.3 Sí

7. Aplicación en el Análisis del Swing de Golf

Aplicando el framework RTMPose-X y RTMDet-M:

Rastrear Movimientos Articulares Fotograma a Fotograma: Proporciona datos exhaustivos para analizar cada fase del swing.

Proporcionar Retroalimentación en Tiempo Real: Permite obtener información inmediata sobre la postura y forma del swing durante las sesiones de entrenamiento.

Comparar con la Mecánica Ideal: Permite la comparación contra la cinemática ideal del swing para identificar áreas de mejora.

8. Conclusión

La integración de RTMPose-X y RTMDet-M ofrece una solución poderosa para el análisis del swing de golf en tiempo real. Con alta precisión, baja latencia y compatibilidad en diversas plataformas de hardware, este enfoque top-down proporciona información detallada sobre la mecánica del swing. Tiene un potencial significativo para ayudar tanto a golfistas aficionados como profesionales a mejorar su rendimiento.

9. Trabajo Futuro

Los desarrollos futuros podrían incluir:

Integración de Algoritmos de Machine Learning: Para proporcionar análisis predictivos y sugerir ajustes que mejoren la eficiencia del swing.

Expansión a Escenarios Multipersonales: Mejorando la aplicabilidad en deportes de equipo o entornos de entrenamiento grupal.

Desarrollo de una Interfaz Amigable: Creando aplicaciones o herramientas que hagan esta tecnología accesible a entrenadores y atletas sin experiencia técnica.

Apéndice

Metodología Detallada: Enfoque Top-Down para la Estimación de Postura en el Swing de Golf Usando RTMPose-X y RTMDet-M

Descripción General

La metodología descrita aquí presenta los pasos detallados involucrados en un enfoque top-down para la estimación de postura en tiempo real de un swing de golf y béisbol, aprovechando las capacidades de RTMPose para la localización de Puntos Clave y RTMDet para la Detección de Objetos. El proceso se divide en varias etapas: detección, localización de Puntos Clave y Postprocesamiento, cada una contribuyendo a la estimación precisa y eficiente de las Articulaciones del cuerpo en un swing de golf para análisis biomecánico.

–Insertar figura–

1. Fase de Detección: Localización en Tiempo Real con RTMDet-M

La primera etapa del enfoque top-down implica detectar al golfista dentro de cada fotograma del video. En escenarios deportivos, particularmente en golf, la escena generalmente consta de un solo jugador, simplificando la tarea de detección en comparación con escenas de multitudes.

1.1 Arquitectura del Modelo

RTMDet-M se utiliza como el detector de objetos en la línea de procesamiento. Usa una red neuronal convolucional (CNN) con backbone, específicamente el backbone CSPNeXt, diseñado para optimizar el rendimiento de la Detección de Objetos en tiempo real manteniendo un equilibrio entre velocidad y precisión. Los aspectos clave de la arquitectura incluyen:

Convoluciones depth-wise de núcleo grande: Se utilizan en las capas de backbone y neck, aumentando el campo receptivo mientras se mantiene el costo computacional bajo.

Red de pirámide de características (FPN): Una técnica de extracción de características multiescala que permite la detección de objetos a varias escalas, asegurando que el golfista se pueda detectar independientemente de su distancia de la cámara.

1.2 Asignación Dinámica de Etiquetas

RTMDet-M aprovecha una estrategia de asignación dinámica de etiquetas que mejora la precisión de detección asignando etiquetas suaves a objetos basándose en una combinación de pérdida de clasificación y localización. La asignación de etiquetas se rige por el algoritmo SimOTA, que selecciona dinámicamente muestras positivas basándose en su probabilidad de coincidir con el objeto ground truth. Este método asegura una detección robusta en las condiciones de iluminación y ambientales variables frecuentemente encontradas en escenas de golf al aire libre.

1.3 Predicción de Cuadro Delimitador

El detector genera Cuadros Delimitadores que enmarcan al golfista en cada fotograma. Estos Cuadros Delimitadores proporcionan restricciones espaciales dentro de las cuales operará el modelo de estimación de postura, reduciendo la carga computacional en la fase posterior de estimación de postura al enfocarse solo en áreas relevantes del fotograma. En este contexto, RTMDet-M genera Cuadros Delimitadores en tiempo real a más de 300 FPS en hardware de alto rendimiento, asegurando que pueda seguir el ritmo de la dinámica rápida de un swing de golf.

1.4 Supresión No Máxima de Personas (NMS)

En configuraciones multipersonales (aunque raras en análisis de swing de golf), RTMDet-M incorpora un algoritmo de Supresión No Máxima (NMS) de postura que elimina detecciones redundantes de Puntos Clave, asegurando que se retengan solo las detecciones más confiables para todos. Esto es crucial en casos donde Cuadros Delimitadores superpuestos podrían detectarse en escenas abarrotadas o secuencias de video.

1.5 Dataset de Entrenamiento y Rendimiento

RTMDet-M se entrena en una tarea de clasificación binaria en las instancias de personas en el dataset Object356.

2. Fase de Estimación de Postura: Localización de Puntos Clave RTMPose-X

Una vez que se ha establecido el Cuadro Delimitador del golfista, la siguiente fase implica estimar la ubicación precisa de las Articulaciones clave del cuerpo dentro de esta región. RTMPose-X, un modelo de estimación de postura de alto rendimiento, se utiliza para este propósito.

2.1 Localización de Puntos Clave Basada en SimCC

RTMPose-X utiliza el algoritmo SimCC (Simple Coordinate Classification), que trata la localización de Puntos Clave como un problema de clasificación. A diferencia de los métodos tradicionales basados en Mapas de Calor, SimCC divide las Coordenadas x e y de cada Punto Clave en bins y clasifica el bin exacto donde se encuentra cada Punto Clave. Este enfoque reduce significativamente la complejidad computacional y mejora la velocidad de inferencia mientras mantiene alta precisión en tareas de estimación de postura humana.

2.2 Backbone CSPNeXt

Similar a RTMDet-M, RTMPose-X también utiliza el backbone CSPNeXt, que está diseñado para tareas de predicción densa como la estimación de postura. El backbone CSPNeXt es ventajoso en este escenario por las siguientes razones:

Arquitectura ligera: La arquitectura del modelo está diseñada para minimizar el número de parámetros mientras maximiza el rendimiento, lo que la hace ideal para aplicaciones en tiempo real.

Extracción eficiente de características: Las capas de extracción de características de CSPNeXt están optimizadas para procesar imágenes de alta resolución, lo cual es crucial para detectar detalles pequeños en partes del cuerpo que se mueven rápidamente durante un swing de golf, como muñecas, codos y rodillas.

2.3 Representación de Puntos Clave

RTMPose-X genera ubicaciones de Puntos Clave para todas las partes del cuerpo relevantes, incluyendo:

Articulaciones de la parte superior del cuerpo: hombros, codos, muñecas y cuello

Articulaciones de la parte inferior del cuerpo: caderas, rodillas y tobillos

Articulaciones adicionales: cabeza, columna vertebral y otros puntos clave relevantes para el análisis del swing

La resolución de 384x288 para las imágenes de entrada asegura que incluso los movimientos sutiles en las Articulaciones se capturen con precisión, mientras mantiene la capacidad del sistema para ejecutarse en tiempo real.

2.4 Preprocesamiento de RTMPose: Procesamiento de Datos Imparcial (UDP)

Antes de que la imagen recortada se introduzca en el modelo RTMpose, se realiza un paso de Procesamiento de Datos Imparcial (UDP). UDP aborda sesgos críticos en el procesamiento de datos de RTMpose durante el entrenamiento y prueba, específicamente en transformaciones del Sistema de Coordenadas y formato de Puntos Clave. En los pipelines convencionales de estimación de postura humana, operaciones estándar como volteo y redimensionamiento a menudo desalinean salidas, especialmente debido a transformaciones basadas en píxeles, lo que conduce a pérdida de precisión y desalineación de imágenes volteadas. UDP corrige estos al establecer una Transformación del Sistema de Coordenadas imparcial, preservando la alineación semántica entre diferentes espacios de coordenadas durante operaciones esenciales (recorte, redimensionamiento, rotación, volteo). UDP también introduce transformación imparcial de formato de Puntos Clave codificando Puntos Clave en Mapas de Calor sin introducir sesgo posicional, refinado aún más mediante un proceso de decodificación consciente de distribución gaussiana. Este enfoque de procesamiento de datos mejora sistemáticamente el rendimiento del modelo, como se muestra en pruebas extensas en datasets COCO y CrowdPose, donde logró precisión mejorada y latencia de inferencia reducida en modelos top-down y bottom-up [Ref].

3. Postprocesamiento y Refinamiento de Postura

Una vez que se predicen los Puntos Clave, se aplican varios pasos de Postprocesamiento para refinar la estimación de postura y asegurar estabilidad en los fotogramas.

3.1 Suavizado de Postura

Los swings de golf implican movimiento rápido, que puede introducir ruido o fluctuaciones en las posiciones de Puntos Clave estimadas en fotogramas. Para mitigar esto, se aplica un Filtro One-Euro para suavizar las trayectorias de Puntos Clave a lo largo del tiempo, asegurando que pequeñas fluctuaciones no físicas en las predicciones de Puntos Clave se eliminen. El Filtro One-Euro funciona ajustando dinámicamente el ancho de banda del Filtro según la velocidad del movimiento, lo que es ideal para escenarios como swings de golf, donde el movimiento varía significativamente en velocidad en diferentes fases (backswing, bajada y Follow-Through).

3.2 Mecanismo de Omisión de Fotogramas

Para optimización adicional, se implementa un mecanismo de omisión de fotogramas, donde la detección se realiza solo en fotogramas clave, y la estimación de postura se interpola para fotogramas intermedios. Esto reduce drásticamente la carga computacional sin sacrificar precisión en escenarios con movimiento limitado entre fotogramas, como análisis en cámara lenta de un swing de golf.

4. Seguimiento Temporal y Consistencia de Secuencia

Dado que los swings de golf son inherentemente secuenciales, mantener consistencia temporal en la estimación de postura es vital. RTMPose-X aborda esto a través de técnicas de seguimiento temporal, que aseguran que las predicciones de Puntos Clave sean consistentes en fotogramas consecutivos. Esto implica rastrear posiciones de Puntos Clave a lo largo del tiempo y asegurar que sus trayectorias sigan patrones de movimiento realistas basados en restricciones biomecánicas.

4.1 Análisis de Velocidad y Aceleración de Puntos Clave

Además de rastrear posiciones de Puntos Clave, RTMPose-X también estima la Velocidad y Aceleración de cada Punto Clave. Esta información es crítica para analizar la dinámica de un swing de golf, proporcionando perspectiva sobre métricas de rendimiento clave como:

Velocidad del Swing: Calculada basándose en la Velocidad de la Muñeca durante la bajada.

Hip Rotation: Analizada a través de la Velocidad Rotacional de las Articulaciones de la Cadera.

Trayectoria del Palo y Velocidad de la Cabeza: Inferidas indirectamente de las trayectorias de Muñeca y Codo.

Estas Métricas pueden compararse contra referentes profesionales para ofrecer retroalimentación sobre la Mecánica del swing del jugador.

5. Inferencia y Rendimiento en Tiempo Real

El pipeline top-down completo está optimizado para rendimiento en tiempo real, permitiendo estimación de postura a más de 90 FPS en GPUs modernas. El uso de arquitecturas de modelo altamente eficientes (CSPNeXt) y técnicas de inferencia rápida (SimCC) asegura que el sistema pueda manejar entrada de video a alta velocidad de fotogramas, haciéndolo adecuado para retroalimentación en tiempo real durante sesiones de entrenamiento.

6. Evaluación y Validación

Los modelos RTMPose-X y RTMDet-M se evalúan en datasets estándar como COCO y MPII, mostrando rendimiento sólido con una precisión promedio (AP) de 75.8% en el dataset COCO para Puntos Clave del cuerpo. Estos resultados se validan contra anotaciones de verdad base en datasets de swing de golf, asegurando la robustez del modelo para capturar movimientos dinámicos de deportes.

6.1 Métricas de Rendimiento

Error Cuadrático Medio (MSE): Se utiliza para cuantificar la precisión de las predicciones de Puntos Clave comparadas con las anotaciones de verdad fundamental.

Precisión Promedio (AP): Evalúa el rendimiento general del modelo de Estimación de Postura.

Tiempo de Procesamiento de Fotogramas: Se evalúa para garantizar que el sistema cumpla con los requisitos de tiempo real (<10 ms por fotograma).

7. Conclusión

El enfoque Top-Down utilizando RTMPose-X y RTMDet-M proporciona un método eficiente y preciso para la Estimación de Postura en tiempo real en análisis de deportes, específicamente para análisis de swing de golf. Con detección robusta de Puntos Clave, seguimiento temporal e inferencia en tiempo real, esta metodología ofrece información biomecánica detallada sobre la dinámica del swing de golf, ayudando a mejorar el Rendimiento y prevenir lesiones.

Referencias

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset de desafío de IA:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: