Aprimorando a Captura de Movimento sem Marcadores de Golf e Basebol Usando RTMPose e RTMDet: Uma Abordagem De Cima Para Baixo

Aprimorando a Captura de Movimento sem Marcadores de Golf e Basebol Usando RTMPose e RTMDet: Uma Abordagem De Cima Para Baixo

Resumo

Este white paper documenta a aplicação de RTMPose e RTMDet para estimativa de Pose precisa e eficiente de swings de golf e basebol. Aproveitando técnicas de ponta otimizadas para desempenho em tempo real, estes modelos permitem o rastreamento detalhado de movimentos corporais durante swings de golf e basebol—um recurso crítico para melhorar o desempenho na análise de esportes. Destacamos as vantagens de uma Abordagem De Cima Para Baixo, em que um detector RTMDet pronto para uso identifica o golfista e o jogador de basebol em cada Quadro, e RTMPose estima as posições das Articulações-chave do corpo.

1. Introdução

A Estimativa de Pose tornou-se fundamental na análise de desempenho esportivo, permitindo o rastreamento preciso dos movimentos de Atletas. Em golf e basebol, capturar os dados biomecânicos do swing de um jogador fornece insights valiosos sobre a dinâmica do swing, ajudando profissionais e amadores a refinarem suas técnicas. Métodos tradicionais de estimativa de Pose 2D frequentemente enfrentam desafios de latência e precisão, especialmente em cenários em tempo real. Este artigo propõe uma solução usando RTMPose e RTMDet dentro do mmpose Framework para estimativa de Pose detalhada durante swings de golf e basebol.

2. Contexto

A complexidade dos swings de golf e basebol requer medição precisa dos movimentos corporais. Os métodos existentes de estimativa de Pose podem não fornecer a precisão necessária para desempenho em tempo real. Avanços em aprendizado profundo e visão computacional introduziram modelos como RTMPose e RTMDet, que oferecem precisão e eficiência aprimoradas.

3. Abordagem De Cima Para Baixo com RTMdet e RTMpose

–insert figure–

3. RTMPose: Um Modelo de Estimativa de Pose de Alta Performance

RTMPose [1] foi projetado para Estimativa de Pose de alta performance e em tempo real, otimizado para funcionar eficientemente em hardware limitado.

Recursos-chave:

Arquitetura e Eficiência do Modelo: RTMpose utiliza CSPNeXt como seu backbone [1, 2], equilibrando velocidade e precisão. CSPNeXt é otimizado para tarefas de predição densa, como Estimativa de Pose e Detecção de Objeto, fornecendo alta resolução e precisão enquanto mantém eficiência computacional.

Predição de Pontos-chave: Emprega um algoritmo baseado em SimCC [1, 3], tratando as posições horizontais e verticais de Pontos-chave como tarefas de classificação separadas. Esta representação compacta reduz a carga computacional e é adequada para implantação em vários dispositivos.

4. RTMDet: O Backbone de Detecção

RTMDet [4] atua como o detector precedendo RTMPose no pipeline De Cima Para Baixo, identificando a localização do golfista ou jogador de basebol em cada Quadro.

Recursos-chave:

Arquitetura e Eficiência do Modelo: RTMDet utiliza uma versão modificada do CSPDarkNet [5] mais treinável e precisa que muitos dos modelos YOLO. A versão modificada aproveita convoluções depth-wise de kernel grande para equilibrar complexidade e velocidade e é eficiente tanto em GPU quanto em CPU. É ideal para aplicações em tempo real, como rastreamento de desempenho esportivo.

Versatilidade: Lida com várias tarefas de Detecção de Objeto, incluindo Segmentação de instância e Detecção de objeto rotacionado. Garante localização precisa do jogador, até mesmo em cenas dinâmicas.

5. Vantagens do Uso de RTMDet e RTMPose na Análise de Swing de Golf e Basebol

5.1 Maior Precisão em Cenas Não Congestionadas

Em configurações típicas de golf/basebol com poucos indivíduos no Quadro, RTMDet isola o golfista/jogador de basebol, permitindo que RTMPose processe cada pessoa detectada com alta precisão. Isso evita a complexidade de métodos bottom-up que processam todos os Pontos-chave de todas as pessoas no Quadro simultaneamente. A Abordagem De Cima Para Baixo também pode incluir um algoritmo de Pós-processamento do RTMdet identificando a pessoa correta (ou seja, golfista ou jogador de basebol) antes de executar a Estimativa de Pose. Além disso, RTMPose foram pré-treinados em material de imagem estendido contendo

5.2 Computação Eficiente e Desempenho em Tempo Real

Usando modelos leves, como RTMdet e RTMpose, mantém-se baixa latência, permitindo análise de swing em tempo real em hardware de consumidor. Isso é particularmente útil para fornecer feedback ao vivo imediato durante sessões de coaching ou treinamento. O sistema SwingCatalyst de Captura de Movimento sem Marcadores é um de poucos sistemas de estúdio que fornecem feedback de Captura de Movimento ao vivo para golfistas e jogadores de basebol.

5.3 Análise Detalhada de Pontos-chave

O RTMPose detecta uma configuração de 26 Pontos-chave do corpo [6] exibida na figura 1 abaixo essencial para analisar cinemática de swing de golf e basebol. Halpe26 é uma configuração estendida que inclui marcadores adicionais nos pés e cabeça em comparação com a configuração Coco mais padrão com 17 marcadores.

–Insert Figure–

6. Metodologia para Captura de Movimento sem Marcadores de Golf e Basebol

6.1 Fase de Detecção: RTMDet

Aplicado a Quadros de vídeo de um golfista ou jogador de basebol, RTMDet gera Caixas Delimitadoras ao redor do jogador, que são passadas para RTMPose. Isso concentra a Estimativa de Pose em regiões relevantes da imagem, reduzindo a carga computacional.

–Insert Image–

6.2 Fase de Estimativa de Pose: RTMPose

RTMPose estima as posições de Pontos-chave dentro da Caixa Delimitadora. Articulações críticas para análise de swing de golf e basebol incluem Pulsos, Cotovelos, Ombros, Quadris e Joelhos. Estes Pontos-chave avaliam Ângulos e posições corporais durante as fases do swing: Movimento de Retorno, Movimento Descendente e Continuação.

–Insert Image–

6.3 Métricas de Desempenho

O desempenho geral de RTMPose é medido usando Métricas como Average Precision (AP) em benchmarks de Estimativa de Pose como MS COCO. Abaixo está o desempenho dos modelos de melhor classificação no benchmark Coco comumente usado. No dataset MS COCO val, RTMPose-X é o modelo com melhor desempenho capaz de fornecer feedback em tempo real e alcança até 75,8% AP com Taxa de Quadros excedendo ?? FPS em GPUs de consumidor, tornando-o adequado para análise de esportes de Alta Velocidade.

Rank Model Resolution Size/params (Mill) AP Real time inference

1 Sapiens-2B 1024x768 2000 82.2 No

2 Sapiens-1B 1024x768 1000 82.1 No

3 Sapiens-0.6B 1024x768 600 81.2 No

4 Sapiens-0.3B 1024x768 300 79.6 Não

5 VitPose-H 256x192 632 79.4 Não

6 RTMPose-X 384x288 49 78.8 Sim

7 VitPose-L 256x192 307 78.6 Não

8 RTMPose-L 384x288 28 78.3 Sim

9 HRFormer 256x192 43 77.2 Não

10 HRNet-UDP 384x288 64 77.2 Sim

11 VitPose-B 256x192 86 77.0 Sim

12 RTMPose-L 256x198 28 76.7 Sim

13 RTMPose-M 384x288 14 76.6 Sim

14 HRNet 384x288 64 76.3 Sim

15 VitPose-S 256x192 43 75.8 Sim

16 RTMPose-M 256x192 14 74.9 Sim

17 SimpleBaseline 256x192 60 73.5 Sim

18 FastPose 256x192 79 73.3 Sim

7. Aplicação na Análise do Swing de Golfe

Ao aplicar o framework RTMPose-X e RTMDet-M:

Rastrear Movimentos das Articulações Quadro por Quadro: Fornece dados abrangentes para analisar cada fase do swing.

Fornecer Feedback em Tempo Real: Permite insights imediatos sobre a postura e forma do swing durante sessões de treinamento.

Comparar com a Mecânica Ideal: Permite comparação com a cinemática ideal do swing para identificar áreas de melhoria.

8. Conclusão

A integração do RTMPose-X e RTMDet-M oferece uma solução poderosa para análise do swing de golfe em tempo real. Com alta precisão, baixa latência e compatibilidade com várias plataformas de hardware, essa abordagem de cima para baixo fornece insights detalhados sobre a mecânica do swing. Tem grande potencial para ajudar golfistas amadores e profissionais a melhorar seu desempenho.

9. Trabalhos Futuros

Desenvolvimentos futuros poderiam envolver:

Integrar Algoritmos de Aprendizado de Máquina: Para fornecer análise preditiva e sugerir ajustes para melhorar a eficiência do swing.

Expandir para Cenários Multi-Pessoa: Aprimorando a aplicabilidade em esportes em equipe ou ambientes de treinamento em grupo.

Desenvolver uma Interface Amigável ao Usuário: Criando aplicações ou ferramentas que tornem essa tecnologia acessível a treinadores e atletas sem experiência técnica.

Apêndice

Metodologia Detalhada: Abordagem De Cima Para Baixo para Estimativa de Pose do Swing de Golfe Usando RTMPose-X e RTMDet-M

Visão Geral

A metodologia descrita aqui delineia as etapas detalhadas envolvidas em uma abordagem de cima para baixo para estimativa de pose em tempo real de um swing de golfe e beisebol, aproveitando os pontos fortes do RTMPose para localização de pontos-chave e RTMDet para detecção de objeto. O processo é dividido em vários estágios: detecção, localização de pontos-chave e pós-processamento, cada um contribuindo para a estimativa precisa e eficiente das articulações do corpo em um swing de golfe para análise biomecânica.

–Inserir figura–

1. Fase de Detecção: Localização em Tempo Real com RTMDet-M

O primeiro estágio da abordagem de cima para baixo envolve detectar o golfista em cada quadro do vídeo. Em cenários esportivos, particularmente no golfe, a cena geralmente consiste em um único jogador, simplificando a tarefa de detecção comparada a cenas com multidão.

1.1 Arquitetura do Modelo

RTMDet-M é empregado como o detector de objeto no pipeline. Usa um backbone de rede neural convolucional (CNN), especificamente o backbone CSPNeXt, projetado para otimizar o desempenho de detecção de objeto em tempo real enquanto mantém um equilíbrio entre velocidade e precisão. Os aspectos principais da arquitetura incluem:

Convoluções depth-wise com kernel grande: Utilizadas nas camadas de backbone e neck, aumentando o campo receptivo enquanto mantém custo computacional baixo.

Rede de pirâmide de características (FPN): Uma técnica de extração de características multi-escala que permite a detecção de objetos em várias escalas, garantindo que o golfista possa ser detectado independentemente de sua distância da câmera.

1.2 Atribuição Dinâmica de Labels

RTMDet-M aproveita uma estratégia de atribuição dinâmica de labels que melhora a precisão da detecção ao atribuir labels suaves aos objetos com base em uma combinação de loss de classificação e localização. A atribuição de labels é governada pelo algoritmo SimOTA, que seleciona dinamicamente amostras positivas com base na probabilidade de corresponder ao objeto de ground truth. Esse método garante detecção robusta em condições variáveis de iluminação e ambientais frequentemente encontradas em cenas de golfe ao ar livre.

1.3 Previsão de Caixa Delimitadora

O detector gera Caixas Delimitadoras que envolvem o golfista em cada quadro. Essas Caixas Delimitadoras fornecem restrições espaciais dentro das quais o modelo de estimativa de pose operará, reduzindo a carga computacional na fase subsequente de estimativa de pose ao focar apenas nas áreas relevantes do quadro. Neste contexto, RTMDet-M gera Caixas Delimitadoras em tempo real a mais de 300 FPS em hardware de alto desempenho, garantindo que possa acompanhar a dinâmica rápida de um swing.

1.4 Supressão Não-Máxima de Pessoa (NMS)

Em cenários multi-pessoa (embora raro em análise de swing de golfe), RTMDet-M incorpora um algoritmo de Supressão Não-Máxima (NMS) de pose que elimina detecções redundantes de pontos-chave, garantindo que apenas as detecções mais confiantes sejam retidas para todos. Isso é crucial em instâncias onde Caixas Delimitadoras sobrepostas possam ser detectadas em cenas aglomeradas ou sequências de vídeo.

1.5 Dataset de Treinamento e Desempenho

RTMDet-M é treinado em uma tarefa de classificação binária em instâncias de pessoa no dataset Object356.

2. Fase de Estimativa de Pose: Localização de Ponto-chave RTMPose-X

Uma vez que a Caixa Delimitadora para o golfista foi estabelecida, a próxima fase envolve estimar a localização precisa das principais articulações do corpo dentro dessa região. RTMPose-X, um modelo de estimativa de pose de alto desempenho, é utilizado para esse propósito.

2.1 Localização de Ponto-chave Baseada em SimCC

RTMPose-X utiliza o algoritmo SimCC (Simple Coordinate Classification), que trata a localização de pontos-chave como um problema de classificação. Em contraste com métodos tradicionais baseados em mapas de calor, SimCC divide as coordenadas x e y de cada ponto-chave em bins e classifica o bin exato onde cada ponto-chave reside. Essa abordagem reduz significativamente a complexidade computacional e melhora a velocidade de inferência, mantendo alta precisão para tarefas de estimativa de pose humana.

2.2 Backbone CSPNeXt

Assim como RTMDet-M, RTMPose-X também usa o backbone CSPNeXt, que é adaptado para tarefas de previsão densa, como estimativa de pose. O backbone CSPNeXt é vantajoso neste cenário pelos seguintes motivos:

Arquitetura leve: A arquitetura do modelo foi projetada para minimizar o número de parâmetros enquanto maximiza a taxa de transferência, tornando-a ideal para aplicações em tempo real.

Extração eficiente de características: As camadas de extração de características do CSPNeXt são otimizadas para processar imagens de alta resolução, o que é crucial para detectar pequenos detalhes em partes do corpo que se movem rapidamente durante um swing, como pulsos, cotovelos e joelhos.

2.3 Representação de Ponto-chave

RTMPose-X fornece localizações de pontos-chave para todas as articulações relevantes do corpo, incluindo:

Articulações do corpo superior: ombros, cotovelos, pulsos e pescoço

Articulações do corpo inferior: quadris, joelhos e tornozelos

Articulações adicionais: cabeça, coluna vertebral e outros pontos-chave relevantes para análise de swing

A resolução de 384x288 para as imagens de entrada garante que até mesmo movimentos sutis nas articulações possam ser capturados com precisão, mantendo ao mesmo tempo a capacidade do sistema de ser executado em tempo real.

2.4 Pré-processamento RTMPose: Processamento de Dados Sem Viés (UDP)

Antes que a imagem recortada seja inserida no modelo RTMpose, uma etapa de Processamento de Dados Sem Viés (UDP) é executada. UDP aborda vieses críticos no processamento de dados do RTMpose durante treinamento e teste, especificamente em transformações do Sistema de Coordenadas e formato de ponto-chave. Em pipelines convencionais de estimativa de pose humana, operações padrão como inversão e redimensionamento frequentemente desalinham saídas, especialmente devido a transformações baseadas em pixels, levando a perda de precisão e desalinhamento de imagens invertidas. UDP corrige isso estabelecendo uma transformação do Sistema de Coordenadas sem viés, preservando o alinhamento semântico entre espaços de coordenadas diferentes durante operações essenciais (recorte, redimensionamento, rotação, inversão). UDP também introduz transformação de formato de ponto-chave sem viés codificando pontos-chave em mapas de calor sem introduzir viés posicional, refinado ainda mais por um processo de decodificação ciente de distribuição gaussiana. Essa abordagem de processamento de dados melhora sistematicamente o desempenho do modelo, como mostrado em testes extensivos nos datasets COCO e CrowdPose, onde alcançou precisão aprimorada e latência de inferência reduzida em modelos de cima para baixo e de baixo para cima [Ref].

3. Pós-processamento e Refinamento de Pose

Uma vez que os pontos-chave são previstos, várias etapas de pós-processamento são aplicadas para refinar a estimativa de pose e garantir estabilidade entre quadros.

3.1 Suavização de Pose

Swings de golfe envolvem movimento rápido, que pode introduzir ruído ou flutuações nas posições de pontos-chave estimadas entre quadros. Para mitigar isso, um One-Euro Filter é aplicado para suavizar as trajetórias de pontos-chave ao longo do tempo, garantindo que pequenas flutuações não-físicas nas previsões de pontos-chave sejam eliminadas. O One-Euro Filter opera ajustando dinamicamente a largura de banda do filtro com base na velocidade do movimento, o que é ideal para cenários como swings de golfe, onde o movimento varia significativamente em velocidade entre diferentes fases (Movimento de Retorno, Movimento Descendente e Continuação).

3.2 Mecanismo de Salto de Quadro

Para otimização adicional, um mecanismo de salto de quadro é implementado, onde a detecção é realizada apenas em quadros-chave e a estimativa de pose é interpolada para quadros intermediários. Isso reduz drasticamente a carga computacional sem sacrificar a precisão em cenários com movimento limitado entre quadros, como análise em câmera lenta de um swing.

4. Rastreamento Temporal e Consistência de Sequência

Dado que swings de golfe são inerentemente sequenciais, manter consistência temporal na estimativa de pose é vital. RTMPose-X aborda isso por meio de técnicas de rastreamento temporal, que garantem que as previsões de pontos-chave sejam consistentes entre quadros consecutivos. Isso envolve rastrear posições de pontos-chave ao longo do tempo e garantir que suas trajetórias sigam padrões de movimento realistas baseados em restrições biomecânicas.

4.1 Análise de Velocidade e Aceleração de Ponto-chave

Além de rastrear posições de pontos-chave, RTMPose-X também estima a Velocidade e Aceleração de cada ponto-chave. Essa informação é crítica para analisar a dinâmica de um swing, fornecendo insight em métricas-chave de desempenho, como:

Velocidade do Swing: Calculada com base na Velocidade do pulso durante o Movimento Descendente.

Rotação do Quadril: Analisada por meio da Velocidade Rotacional das articulações do quadril.

Caminho do Taco e velocidade da cabeça: Inferidos indiretamente a partir de trajetórias do pulso e cotovelo.

Essas métricas podem ser comparadas com benchmarks profissionais para oferecer feedback sobre a mecânica do swing de um jogador.

5. Inferência e Desempenho em Tempo Real

Todo o pipeline de cima para baixo é otimizado para desempenho em tempo real, permitindo estimativa de pose a mais de 90 FPS em GPUs modernas. O uso de arquiteturas de modelo altamente eficientes (CSPNeXt) e técnicas de inferência rápida (SimCC) garante que o sistema possa lidar com entrada de vídeo de alta Taxa de Quadros, tornando-o adequado para feedback em tempo real durante sessões de treinamento.

6. Avaliação e Validação

Os modelos RTMPose-X e RTMDet-M são avaliados em datasets padrão como COCO e MPII, mostrando forte desempenho com uma Precisão Média (AP) de 75,8% no dataset COCO para pontos-chave do corpo. Esses resultados são validados contra anotações de verdade essencial em datasets de swing de golfe, garantindo a robustez do modelo na captura de movimentos esportivos dinâmicos.

6.1 Métricas de Desempenho

Erro Quadrático Médio (MSE): Utilizado para quantificar a precisão das previsões de Pontos-chave em relação às anotações de verdade fundamental.

Precisão Média (AP): Avalia o Desempenho geral do modelo de Estimativa de Pose.

Tempo de Processamento de Quadro: Avaliado para garantir que o sistema atenda aos requisitos de tempo real (<10 ms por Quadro).

7. Conclusão

A abordagem De Cima Para Baixo usando RTMPose-X e RTMDet-M oferece um método eficiente e preciso para Estimativa de Pose em tempo real em análise de esportes, especificamente para análise de Swing de golfe. Com detecção robusta de Pontos-chave, rastreamento temporal e inferência em tempo real, esta metodologia fornece insights biomecânicos detalhados sobre a dinâmica do Swing de golfe, auxiliando na melhoria de Desempenho e prevenção de lesões.

Referências

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset de desafio de IA:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: