RTMPose와 RTMDet을 활용한 골프 및 야구 스윙 마커리스 모션 캡처 향상: 탑 다운 방식

RTMPose와 RTMDet을 활용한 골프 및 야구 스윙 마커리스 모션 캡처 향상: 탑 다운 방식

초록

본 백서는 골프 및 야구 스윙의 정확하고 효율적인 포즈 추정을 위해 RTMPose와 RTMDet을 적용한 사례를 문서화합니다. 실시간 성능에 최적화된 최첨단 기술을 활용하여, 이러한 모델은 골프 및 야구 스윙 중 신체 움직임의 상세한 추적을 가능하게 하며, 이는 스포츠 분석에서 퍼포먼스 향상을 위한 중요한 기능입니다. 우리는 탑 다운 방식의 장점을 강조합니다. 이 방식에서는 기성 RTMDet 탐지기가 각 프레임에서 골퍼와 야구 선수를 식별하고, RTMPose가 주요 신체 관절의 위치를 추정합니다.

1. 소개

포즈 추정은 스포츠 퍼포먼스 분석에서 중추적인 역할을 하며, 선수의 움직임을 정밀하게 추적할 수 있습니다. 골프와 야구에서 선수의 스윙 생체역학 데이터를 캡처하면 스윙 동역학에 대한 귀중한 통찰을 제공하며, 전문가와 아마추어 모두가 기술을 개선하는 데 도움이 됩니다. 기존 2D 포즈 추정 방법은 특히 실시간 시나리오에서 레이턴시와 정확도 문제에 직면하곤 합니다. 본 논문은 MMPose 프레임워크 내에서 RTMPose와 RTMDet을 사용하여 골프 및 야구 스윙 중 상세한 포즈 추정을 위한 솔루션을 제안합니다.

2. 배경

골프 및 야구 스윙의 복잡성은 신체 움직임의 정밀한 측정을 요구합니다. 기존 포즈 추정 방법은 실시간 퍼포먼스에 필요한 정확도를 제공하지 못할 수 있습니다. 딥러닝과 컴퓨터 비전의 발전으로 RTMPose 및 RTMDet과 같은 모델이 소개되었으며, 이들은 향상된 정확도와 효율성을 제공합니다.

3. RTMDet과 RTMPose를 활용한 탑 다운 방식

–insert figure–

3. RTMPose: 고성능 포즈 추정 모델

RTMPose [1]는 제한된 하드웨어에서 효율적으로 실행되도록 최적화된 고성능 실시간 포즈 추정을 위해 설계되었습니다.

주요 특징:

모델 아키텍처 및 효율성: RTMPose는 CSPNeXt를 백본으로 활용하여 [1, 2] 속도와 정확도의 균형을 맞춥니다. CSPNeXt는 포즈 추정 및 객체 탐지와 같은 밀집 예측 작업에 최적화되어 있으며, 높은 해상도와 정밀도를 제공하면서 계산 효율성을 유지합니다.

키포인트 예측: SimCC 기반 알고리즘을 채용하여 [1, 3] 키포인트의 수평 및 수직 위치를 별도의 분류 작업으로 처리합니다. 이 간결한 표현은 계산 부하를 줄이고 다양한 기기에의 배포에 적합합니다.

4. RTMDet: 탐지 백본

RTMDet [4]는 탑 다운 파이프라인에서 RTMPose 앞에 위치한 탐지기로, 각 프레임 내에서 골퍼 또는 야구 선수의 위치를 식별합니다.

주요 특징:

모델 아키텍처 및 효율성: RTMDet은 많은 YOLO 모델보다 더 훈련 가능하고 정밀한 CSPDarkNet의 수정된 버전을 활용합니다. [5] 이 수정된 버전은 대형 커널 깊이별 콘볼루션을 활용하여 복잡성과 속도의 균형을 맞추며 GPU와 CPU 모두에서 효율적입니다. 스포츠 퍼포먼스 추적과 같은 실시간 애플리케이션에 이상적입니다.

다재다능성: 인스턴스 세그멘테이션 및 회전 객체 탐지를 포함한 다양한 객체 탐지 작업을 처리합니다. 동적 장면에서도 선수의 정밀한 위치 파악을 보장합니다.

5. 골프 및 야구 스윙 분석에서 RTMDet과 RTMPose 사용의 장점

5.1 붐비지 않은 장면에서의 높은 정확도

전형적인 골프/야구 환경에서 프레임에 적은 수의 사람이 있을 때, RTMDet은 골퍼/야구 선수를 분리하여 RTMPose가 각 감지된 사람을 높은 정확도로 처리하도록 합니다. 이는 프레임의 모든 사람에 대해 모든 키포인트를 동시에 처리하는 바텀업 방법의 복잡성을 회피합니다. 탑 다운 방식은 또한 포즈 추정을 수행하기 전에 올바른 사람(예: 골퍼 또는 야구 선수)을 식별하는 RTMDet의 후처리 알고리즘을 포함할 수 있습니다. 또한 RTMPose는 광범위한 이미지 자료를 포함하는 확장된 사전 훈련 데이터로 사전 훈련되었습니다.

5.2 효율적인 계산 및 실시간 퍼포먼스

RTMDet 및 RTMPose와 같은 경량 모델을 사용하면 낮은 레이턴시를 유지하여 소비자급 하드웨어에서 실시간 스윙 분석을 가능하게 합니다. 이는 코칭 또는 훈련 세션 중 즉각적인 라이브 피드백을 제공하는 데 특히 유용합니다. Swing Catalyst 마커리스 모션 캡처 시스템은 골퍼 및 야구 선수에게 라이브 모션 캡처 피드백을 제공하는 몇 안 되는 스튜디오 시스템 중 하나입니다.

5.3 상세한 키포인트 분석

RTMPose는 아래 그림 1에 표시된 골프 및 야구 스윙 운동학 분석에 필수적인 26개 신체 키포인트의 설정을 감지합니다. [6] Halpe26은 더 표준적인 17개 마커를 가진 COCO 설정에 비해 발과 머리에 추가 마커를 포함하는 확장된 설정입니다.

–Insert Figure–

6. 골프 및 야구 스윙 마커리스 모션 캡처 방법론

6.1 탐지 페이즈: RTMDet

골퍼 또는 야구 선수의 비디오 프레임에 적용된 RTMDet은 플레이어 주변에 바운딩 박스를 생성하며, 이는 RTMPose로 전달됩니다. 이는 포즈 추정을 관련 이미지 영역에 집중시켜 계산 부하를 줄입니다.

–Insert Image–

6.2 포즈 추정 페이즈: RTMPose

RTMPose는 바운딩 박스 내의 키포인트 위치를 추정합니다. 골프 및 야구 스윙 분석에 중요한 관절은 손목, 팔꿈치, 어깨, 고관절, 무릎을 포함합니다. 이러한 키포인트는 백스윙, 다운스윙, 팔로우스루라는 스윙의 페이즈 중 신체 각도 및 위치를 평가합니다.

–Insert Image–

6.3 퍼포먼스 메트릭

RTMPose의 일반적인 퍼포먼스는 MS COCO와 같은 포즈 추정 벤치마크에서 평균 정밀도(AP)와 같은 메트릭을 사용하여 측정됩니다. 다음은 일반적으로 사용되는 COCO 벤치마크에서 가장 잘 순위된 모델의 퍼포먼스입니다. MS COCO val Dataset에서 RTMPose-X는 실시간 피드백을 제공할 수 있는 가장 성능이 좋은 모델이며 소비자급 GPU에서 ?? FPS를 초과하는 프레임 레이트로 최대 75.8% AP를 달성하여 고속 스포츠 분석에 적합합니다.

순위 모델 해상도 크기/파라미터 (백만) AP 실시간 추론

1 Sapiens-2B 1024x768 2000 82.2 아니오

2 Sapiens-1B 1024x768 1000 82.1 아니오

3 Sapiens-0.6B 1024x768 600 81.2 아니오

4 Sapiens-0.3B 1024x768 300 79.6 아니오

5 VitPose-H 256x192 632 79.4 아니오

6 RTMPose-X 384x288 49 78.8 예

7 VitPose-L 256x192 307 78.6 아니오

8 RTMPose-L 384x288 28 78.3 예

9 HRFormer 256x192 43 77.2 아니오

10 HRNet-UDP 384x288 64 77.2 예

11 VitPose-B 256x192 86 77.0 예

12 RTMPose-L 256x198 28 76.7 예

13 RTMPose-M 384x288 14 76.6 예

14 HRNet 384x288 64 76.3 예

15 VitPose-S 256x192 43 75.8 예

16 RTMPose-M 256x192 14 74.9 예

17 SimpleBaseline 256x192 60 73.5 예

18 FastPose 256x192 79 73.3 예

7. 골프 스윙 분석에의 적용

RTMPose-X 및 RTMDet-M 프레임워크를 적용하면:

프레임별 관절 움직임 추적: 스윙의 각 페이즈를 분석하기 위한 포괄적인 데이터를 제공합니다.

실시간 피드백 제공: 훈련 세션 중 스윙 자세 및 폼에 대한 즉각적인 인사이트를 제공합니다.

이상적인 기술과의 비교: 이상적인 스윙 운동학과 비교하여 개선이 필요한 부분을 파악할 수 있습니다.

8. 결론

RTMPose-X 및 RTMDet-M의 통합은 실시간 골프 스윙 분석을 위한 강력한 솔루션을 제공합니다. 높은 정확도, 낮은 지연 시간, 다양한 하드웨어 플랫폼과의 호환성을 갖춘 이 탑 다운 방식은 스윙 기술에 대한 상세한 인사이트를 제공합니다. 아마추어 및 프로 골퍼 모두의 퍼포먼스 향상을 돕는 데 상당한 잠재력을 가지고 있습니다.

9. 향후 연구

향후 개발 방향은 다음과 같을 수 있습니다:

머신 러닝 알고리즘 통합: 예측 분석을 제공하고 스윙 효율성 향상을 위한 조정 사항을 제안합니다.

다중 선수 시나리오로 확장: 팀 스포츠 또는 그룹 훈련 환경에서의 적용성을 강화합니다.

사용자 친화적 인터페이스 개발: 코치 및 선수가 기술 전문 지식 없이도 이 기술에 접근할 수 있는 애플리케이션 및 도구를 만듭니다.

부록

상세 방법론: RTMPose-X 및 RTMDet-M을 사용한 골프 스윙 포즈 추정을 위한 탑 다운 방식

개요

여기서 설명하는 방법론은 키포인트 로컬라이제이션을 위한 RTMPose와 객체 탐지를 위한 RTMDet의 강점을 활용하여 골프 및 야구 스윙의 실시간 포즈 추정을 위한 탑 다운 방식의 상세 단계를 설명합니다. 이 프로세스는 탐지, 키포인트 로컬라이제이션, 후처리 등 여러 단계로 나뉘며, 각 단계는 생체역학 분석을 위한 골프 스윙의 신체 관절을 정확하고 효율적으로 추정하는 데 기여합니다.

–그림 삽입–

1. 탐지 페이즈: RTMDet-M을 사용한 실시간 로컬라이제이션

탑 다운 방식의 첫 번째 단계는 비디오의 각 프레임 내에서 골퍼를 탐지하는 것입니다. 특히 골프 스포츠 시나리오에서 장면은 일반적으로 단일 선수로 구성되어 있어 군중 장면에 비해 탐지 작업이 단순화됩니다.

1.1 모델 아키텍처

RTMDet-M은 파이프라인의 객체 탐지기로 사용됩니다. CNN 백본, 특히 실시간 객체 탐지 퍼포먼스를 최적화하면서 속도와 정확도 사이의 균형을 유지하도록 설계된 CSPNeXt 백본을 사용합니다. 아키텍처의 핵심 요소는 다음과 같습니다:

대형 커널 깊이별 컨볼루션: 백본 및 넥 레이어에서 활용되어 낮은 계산 비용을 유지하면서 수용 영역을 증가시킵니다.

특성 피라미드 네트워크(FPN): 다양한 스케일에서의 객체 탐지를 가능하게 하는 멀티스케일 특성 추출 기법으로, 카메라로부터의 거리에 관계없이 골퍼를 탐지할 수 있도록 합니다.

1.2 동적 레이블 할당

RTMDet-M은 분류 및 로컬라이제이션 손실의 조합에 따라 객체에 소프트 레이블을 할당하여 탐지 정확도를 향상시키는 동적 레이블 할당 전략을 활용합니다. 레이블 할당은 SimOTA 알고리즘에 의해 조절되며, 이는 지표 실측 객체와 일치할 가능성에 따라 양성 샘플을 동적으로 선택합니다. 이 방법은 야외 골프 장면에서 자주 발생하는 다양한 조명 및 환경 조건에서 견고한 탐지를 보장합니다.

1.3 바운딩 박스 예측

탐지기는 각 프레임에서 골퍼를 둘러싼 바운딩 박스를 출력합니다. 이러한 바운딩 박스는 포즈 추정 모델이 작동할 공간적 제약을 제공하며, 프레임의 관련 영역에만 집중함으로써 후속 포즈 추정 단계의 계산 부하를 줄입니다. 이 맥락에서 RTMDet-M은 고성능 하드웨어에서 300 FPS 이상의 실시간 바운딩 박스를 생성하여 골프 스윙의 빠른 동역학을 따라잡을 수 있도록 합니다.

1.4 Person Non-Maximum Suppression (NMS)

다중 인물 설정에서(골프 스윙 분석에서는 드물지만) RTMDet-M은 중복된 키포인트 탐지를 제거하는 포즈 Non-Maximum Suppression (NMS) 알고리즘을 적용하여 가장 신뢰도 높은 탐지만 모든 사람에 대해 유지되도록 합니다. 이는 겹치는 바운딩 박스가 붐비는 장면이나 비디오 순서에서 탐지될 수 있는 경우에 매우 중요합니다.

1.5 학습 Dataset 및 성능

RTMDet-M은 Object356 Dataset의 인물 인스턴스에 대한 이진 분류 작업으로 학습됩니다.

2. 포즈 추정 단계: RTMPose-X 키포인트 로컬라이제이션

골퍼의 바운딩 박스가 설정되면, 다음 단계는 이 영역 내의 주요 신체 관절의 정확한 위치를 추정하는 것입니다. 이 목적을 위해 고성능 포즈 추정 모델인 RTMPose-X를 사용합니다.

2.1 SimCC 기반 키포인트 로컬라이제이션

RTMPose-X는 키포인트 로컬라이제이션을 분류 문제로 취급하는 SimCC (Simple Coordinate Classification) 알고리즘을 사용합니다. 기존의 히트맵 기반 방법과는 달리, SimCC는 각 키포인트의 x 및 y 좌표를 빈으로 나누고 각 키포인트가 있는 정확한 빈을 분류합니다. 이 접근 방식은 계산 복잡성을 크게 줄이고 인간 포즈 추정 작업의 높은 정확도를 유지하면서 추론 속도를 향상시킵니다.

2.2 CSPNeXt 백본

RTMDet-M과 유사하게 RTMPose-X도 포즈 추정과 같은 밀도 높은 예측 작업을 위해 맞춤화된 CSPNeXt 백본을 사용합니다. CSPNeXt 백본은 이 시나리오에서 다음과 같은 이유로 유리합니다:

경량 아키텍처: 모델의 아키텍처는 매개변수 수를 최소화하면서 처리량을 최대화하도록 설계되어 실시간 애플리케이션에 이상적입니다.

효율적인 특성 추출: CSPNeXt의 특성 추출 계층은 고해상도 이미지를 처리하도록 최적화되어 있으며, 이는 골프 스윙 중 손목, 팔꿈치, 무릎 등 빠르게 움직이는 신체 부분의 세부 사항을 탐지하는 데 중요합니다.

2.3 키포인트 표현

RTMPose-X는 다음을 포함한 모든 관련 신체 부분에 대한 키포인트 위치를 출력합니다:

상체 관절: 어깨, 팔꿈치, 손목, 목

하체 관절: 고관절, 무릎, 발목

추가 관절: 머리, 척추 및 스윙 분석에 관련된 기타 주요 포인트

입력 이미지의 384x288 해상도는 관절의 미세한 움직임도 정확하게 캡처할 수 있도록 하면서 동시에 시스템의 실시간 실행 능력을 유지합니다.

2.4 RTMPose 전처리: Unbiased Data Processing (UDP)

자른 이미지가 RTMpose 모델에 입력되기 전에 Unbiased Data Processing (UDP) 단계를 수행합니다. UDP는 RTMpose의 학습 및 테스트 중 데이터 처리의 중요한 편향을 해결하며, 특히 좌표계 및 키포인트 형식 변환에서 그렇습니다. 기존의 인간 포즈 추정 파이프라인에서 뒤집기 및 크기 조정과 같은 표준 작업은 종종 출력을 정렬하지 못하는데, 특히 픽셀 기반 변환으로 인해 정밀도 손실과 뒤집은 이미지의 정렬 불일치를 초래합니다. UDP는 불편향한 좌표계 변환을 설정하여 이를 수정하고, 자르기, 크기 조정, 회전, 뒤집기 등의 필수 작업 중 다양한 좌표 공간에서 의미론적 정렬을 보존합니다. UDP는 또한 키포인트를 위치 편향을 도입하지 않고 히트맵으로 인코딩하고, 가우스 분포 인식 디코딩 프로세스를 통해 추가로 정제함으로써 불편향한 키포인트 형식 변환을 도입합니다. 이 데이터 처리 접근 방식은 COCO 및 CrowdPose Dataset에 대한 광범위한 테스트에서 시스템적으로 모델 성능을 향상시키며, 탑 다운 및 바텀 업 모델 전반에서 향상된 정확도와 감소된 추론 지연을 달성했습니다 [Ref].

3. 후처리 및 포즈 개선

키포인트가 예측되면, 포즈 추정을 개선하고 프레임 전체에서 안정성을 보장하기 위해 여러 후처리 단계가 적용됩니다.

3.1 포즈 스무딩

골프 스윙은 빠른 움직임을 포함하며, 이는 프레임 전체에서 추정된 키포인트 위치에 잡음이나 변동을 도입할 수 있습니다. 이를 완화하기 위해 One-Euro Filter를 적용하여 시간 경과에 따라 키포인트 궤적을 스무딩하고, 키포인트 예측의 작고 물리적으로 불가능한 변동이 제거되도록 합니다. One-Euro Filter는 움직임의 속도에 따라 필터의 대역폭을 동적으로 조정하여 작동하며, 이는 백스윙, 다운스윙, 팔로우스루 등 여러 페이즈에서 움직임 속도가 크게 달라지는 골프 스윙 같은 시나리오에 이상적입니다.

3.2 프레임 스킵 메커니즘

추가 최적화를 위해 프레임 스킵 메커니즘이 구현되며, 여기서 탐지는 핵심 프레임에서만 수행되고 포즈 추정은 중간 프레임에 대해 보간됩니다. 이는 골프 스윙의 슬로우 모션 분석과 같이 프레임 간 움직임이 제한된 시나리오에서 정확도를 희생하지 않으면서 계산 부하를 대폭 줄입니다.

4. 시간적 추적 및 순서 일관성

골프 스윙은 본질적으로 순차적이므로, 포즈 추정의 시간적 일관성을 유지하는 것이 중요합니다. RTMPose-X는 시간적 추적 기법을 통해 이를 해결하며, 연속 프레임 전체에서 키포인트 예측이 일관성 있도록 합니다. 이는 시간 경과에 따라 키포인트 위치를 추적하고 그들의 궤적이 생체역학적 제약에 기반한 현실적인 움직임 패턴을 따르도록 합니다.

4.1 키포인트 속도 및 가속도 분석

키포인트 위치 추적 외에도 RTMPose-X는 각 키포인트의 속도 및 가속도도 추정합니다. 이 정보는 골프 스윙의 동역학을 분석하고 다음과 같은 주요 성능 메트릭에 대한 통찰력을 제공하는 데 중요합니다:

스윙 스피드: 다운스윙 중 손목 속도를 기반으로 계산됩니다.

고관절 회전: 고관절의 회전 속도를 통해 분석됩니다.

클럽 경로 및 헤드 스피드: 손목 및 팔꿈치 궤적으로부터 간접적으로 유추됩니다.

이러한 메트릭은 전문 벤치마크와 비교하여 선수의 스윙 기술에 대한 피드백을 제공할 수 있습니다.

5. 추론 및 실시간 성능

전체 탑 다운 파이프라인은 실시간 성능을 위해 최적화되어 있으며, 현대 GPU에서 90 FPS 이상의 포즈 추정을 가능하게 합니다. 매우 효율적인 모델 아키텍처(CSPNeXt)와 빠른 추론 기법(SimCC)의 사용은 시스템이 고프레임 레이트 비디오 입력을 처리할 수 있도록 하여 훈련 세션 중 실시간 피드백에 적합합니다.

6. 평가 및 검증

RTMPose-X 및 RTMDet-M 모델은 COCO 및 MPII와 같은 표준 Dataset에서 평가되며, 신체 키포인트의 COCO Dataset에서 평균 정밀도(AP) 75.8%로 강력한 성능을 보여줍니다. 이러한 결과는 골프 스윙 Dataset의 그라운드 트루스 주석에 대해 검증되어 동역학 스포츠 움직임 캡처에서 모델의 견고성을 보장합니다.

6.1 퍼포먼스 메트릭

평균 제곱 오차(MSE): 키포인트 예측의 정확도를 기준 주석과 비교하여 정량화하는 데 사용됩니다.

평균 정밀도(AP): 포즈 추정 모델의 전반적인 퍼포먼스를 평가합니다.

프레임 처리 시간: 시스템이 실시간 요구 사항(프레임당 10ms 미만)을 충족하는지 확인하기 위해 벤치마크됩니다.

7. 결론

RTMPose-X와 RTMDet-M을 사용한 탑 다운 방식은 스포츠 분석, 특히 골프 스윙 분석에서 실시간 포즈 추정을 위한 효율적이고 정확한 방법을 제공합니다. 강력한 키포인트 탐지, 시간 추적 및 실시간 추론을 통해 이 방법론은 골프 스윙 역학에 대한 상세한 생체역학적 통찰력을 제공하며, 퍼포먼스 향상 및 부상 예방에 도움을 줍니다.

참고 자료

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI 챌린지 Dataset:

[] MS Coco Dataset:

[7] Crowdpose Dataset: https://arxiv.org/pdf/1812.00324

[] MPII Dataset:

[] sub-JHMBD Dataset: