Meningkatkan Tangkap Gerakan Tanpa Penanda untuk Ayunan Golf dan Baseball Menggunakan RTMPose dan RTMDet: Pendekatan Top-Down

Meningkatkan Tangkap Gerakan Tanpa Penanda untuk Ayunan Golf dan Baseball Menggunakan RTMPose dan RTMDet: Pendekatan Top-Down

Abstrak

Makalah teknis ini mendokumentasikan penerapan RTMPose dan RTMDet untuk estimasi pose yang akurat dan efisien pada ayunan golf dan baseball. Memanfaatkan teknik terkini yang dioptimalkan untuk performa real-time, model-model ini memungkinkan pelacakan rinci gerakan tubuh selama ayunan golf dan baseball—fitur penting untuk meningkatkan performa dalam analitik olahraga. Kami menyoroti keunggulan pendekatan top-down, di mana detektor RTMDet yang tersedia secara umum mengidentifikasi pegolf dan pemain baseball di setiap frame, dan RTMPose memperkirakan posisi sendi-sendi tubuh kunci.

1. Pendahuluan

Estimasi pose telah menjadi pivotal dalam analisis performa olahraga, memungkinkan pelacakan presisi gerakan atlet. Dalam golf dan baseball, menangkap data biomekanikal dari ayunan pemain memberikan wawasan berharga tentang dinamika ayunan, membantu para profesional dan amatir dalam menyempurnakan teknik mereka. Metode estimasi pose 2D tradisional sering menghadapi tantangan latensi dan akurasi, terutama dalam skenario real-time. Makalah ini mengusulkan solusi menggunakan RTMPose dan RTMDet dalam kerangka kerja MMPose untuk estimasi pose rinci selama ayunan golf dan baseball.

2. Latar Belakang

Kompleksitas ayunan golf dan baseball memerlukan pengukuran presisi gerakan tubuh. Metode estimasi pose yang ada mungkin tidak memberikan akurasi yang diperlukan untuk performa real-time. Kemajuan dalam pembelajaran mendalam dan visi komputer telah memperkenalkan model seperti RTMPose dan RTMDet, yang menawarkan akurasi dan efisiensi yang ditingkatkan.

3. Pendekatan top-down dengan RTMDet dan RTMPose

–insert figure–

3. RTMPose: Model Estimasi Pose Performa Tinggi

RTMPose [1] dirancang untuk estimasi pose real-time berkinerja tinggi, dioptimalkan untuk berjalan secara efisien pada perangkat keras terbatas.

Fitur Utama:

Arsitektur Model dan Efisiensi: RTMPose memanfaatkan CSPNeXt sebagai tulang punggungnya [1, 2], menyeimbangkan kecepatan dan akurasi. CSPNeXt dioptimalkan untuk tugas prediksi padat seperti estimasi pose dan deteksi objek, memberikan resolusi tinggi dan presisi sambil mempertahankan efisiensi komputasi.

Prediksi Titik Kunci: Menggunakan algoritma berbasis SimCC [1, 3], memperlakukan posisi horizontal dan vertikal titik kunci sebagai tugas klasifikasi terpisah. Representasi kompak ini mengurangi beban komputasi dan cocok untuk penerapan di berbagai perangkat.

4. RTMDet: Backbone Deteksi

RTMDet [4] bertindak sebagai detektor yang mendahului RTMPose dalam pipa top-down, mengidentifikasi lokasi pegolf atau pemain baseball dalam setiap frame.

Fitur Utama:

Arsitektur Model dan Efisiensi: RTMDet menggunakan versi modifikasi dari CSPDarkNet [5] yang lebih dapat dilatih dan presisi dibandingkan banyak model YOLO. Versi yang dimodifikasi memanfaatkan konvolusi depth-wise dengan kernel besar untuk menyeimbangkan kompleksitas dan kecepatan serta efisien di GPU dan CPU. Ideal untuk aplikasi real-time seperti pelacakan performa olahraga.

Keserbagunaan: Menangani berbagai tugas deteksi objek, termasuk segmentasi instans dan deteksi objek yang diputar. Memastikan lokalisasi pemain yang presisi, bahkan dalam adegan dinamis.

5. Keunggulan Penggunaan RTMDet dan RTMPose dalam Analisis Ayunan Golf dan Baseball

5.1 Akurasi Lebih Tinggi dalam Adegan Tidak Ramai

Dalam pengaturan golf/baseball khas dengan beberapa individu di frame, RTMDet mengisolasi pegolf/pemain baseball, memungkinkan RTMPose memproses setiap orang yang terdeteksi dengan akurasi tinggi. Ini menghindari kompleksitas metode bottom-up yang memproses semua titik kunci untuk semua orang di frame secara bersamaan. Pendekatan top-down juga dapat menyertakan algoritma pasca-pemrosesan RTMDet yang mengidentifikasi orang yang benar (yaitu pegolf atau pemain baseball) sebelum melakukan estimasi pose. Selain itu, RTMPose telah dilatih sebelumnya pada materi gambar yang diperluas yang berisi

5.2 Komputasi Efisien dan Performa Real-Time

Menggunakan model ringan, seperti RTMDet dan RTMPose, mempertahankan latensi rendah, memungkinkan analisis ayunan real-time pada perangkat keras kelas konsumen. Ini sangat berguna untuk memberikan umpan balik langsung selama sesi pelatihan atau coaching. Sistem tangkap gerakan tanpa penanda SwingCatalyst adalah salah satu dari beberapa sistem studio yang memberikan umpan balik tangkap gerakan langsung kepada pegolf dan pemain baseball.

5.3 Analisis Titik Kunci Rinci

RTMPose mendeteksi setup 26 titik kunci tubuh [6] yang ditampilkan dalam gambar 1 di bawah ini, penting untuk menganalisis kinematik ayunan golf dan baseball. Halpe26 adalah setup yang diperluas yang mencakup penanda tambahan di kaki dan kepala dibandingkan dengan setup Coco yang lebih standar dengan 17 penanda.

–Insert Figure–

6. Metodologi untuk Tangkap Gerakan Tanpa Penanda Ayunan Golf dan Baseball

6.1 Fase Deteksi: RTMDet

Diterapkan pada frame video pegolf atau pemain baseball, RTMDet menghasilkan kotak pembatas di sekitar pemain, yang diteruskan ke RTMPose. Ini memfokuskan estimasi pose pada daerah gambar yang relevan, mengurangi beban komputasi.

–Insert Image–

6.2 Fase Estimasi Pose: RTMPose

RTMPose memperkirakan posisi titik kunci dalam kotak pembatas. Sendi-sendi penting untuk analisis ayunan golf dan baseball termasuk pergelangan tangan, siku, bahu, pinggul, dan lutut. Titik-titik kunci ini mengevaluasi sudut tubuh dan posisi selama fase ayunan: backswing, downswing, dan follow-through.

–Insert Image–

6.3 Metrik Performa

Performa umum RTMPose diukur menggunakan metrik seperti Average Precision (AP) pada tolok ukur estimasi pose seperti MS COCO. Di bawah ini adalah performa model-model terperingkat terbaik pada tolok ukur Coco yang umum digunakan. Pada dataset val MS COCO, RTMPose-X adalah model berkinerja terbaik yang mampu memberikan umpan balik real-time dan mencapai AP hingga 75.8% dengan laju frame melebihi ?? FPS pada GPU kelas konsumen, menjadikannya cocok untuk analisis olahraga kecepatan tinggi.

Peringkat Model Resolusi Ukuran/parameter (Juta) AP Inferensi real-time

1 Sapiens-2B 1024x768 2000 82.2 Tidak

2 Sapiens-1B 1024x768 1000 82.1 Tidak

3 Sapiens-0.6B 1024x768 600 81.2 Tidak

4 Sapiens-0.3B 1024x768 300 79.6 Tidak

5 VitPose-H 256x192 632 79.4 Tidak

6 RTMPose-X 384x288 49 78.8 Ya

7 VitPose-L 256x192 307 78.6 Tidak

8 RTMPose-L 384x288 28 78.3 Ya

9 HRFormer 256x192 43 77.2 Tidak

10 HRNet-UDP 384x288 64 77.2 Ya

11 VitPose-B 256x192 86 77.0 Ya

12 RTMPose-L 256x198 28 76.7 Ya

13 RTMPose-M 384x288 14 76.6 Ya

14 HRNet 384x288 64 76.3 Ya

15 VitPose-S 256x192 43 75.8 Ya

16 RTMPose-M 256x192 14 74.9 Ya

17 SimpleBaseline 256x192 60 73.5 Ya

18 FastPose 256x192 79 73.3 Ya

7. Penerapan dalam Analisis Ayunan Golf

Dengan menerapkan framework RTMPose-X dan RTMDet-M:

Lacak Gerakan Sendi Frame demi Frame: Memberikan data komprehensif untuk menganalisis setiap fase ayunan.

Sediakan Umpan Balik Real-Time: Memungkinkan wawasan langsung tentang postur dan bentuk ayunan selama sesi pelatihan.

Bandingkan dengan Mekanik Ideal: Memungkinkan perbandingan dengan kinematik ayunan ideal untuk mengidentifikasi area yang perlu ditingkatkan.

8. Kesimpulan

Integrasi RTMPose-X dan RTMDet-M menawarkan solusi yang kuat untuk analisis ayunan golf secara real-time. Dengan presisi tinggi, latensi rendah, dan kompatibilitas di berbagai platform perangkat keras, pendekatan top-down ini memberikan wawasan mendalam tentang mekanik ayunan. Ini memiliki potensi signifikan untuk membantu pegolf amatir dan profesional dalam meningkatkan performa mereka.

9. Pekerjaan Masa Depan

Pengembangan di masa depan dapat melibatkan:

Mengintegrasikan Algoritma Machine Learning: Untuk memberikan analitik prediktif dan menyarankan penyesuaian guna meningkatkan efisiensi ayunan.

Memperluas ke Skenario Multi-Orang: Meningkatkan penerapan dalam olahraga tim atau lingkungan pelatihan kelompok.

Mengembangkan Antarmuka Ramah Pengguna: Membuat aplikasi atau alat yang membuat teknologi ini dapat diakses oleh pelatih dan atlet tanpa keahlian teknis.

Lampiran

Metodologi Detail: Pendekatan Top-Down untuk Estimasi Pose Ayunan Golf Menggunakan RTMPose-X dan RTMDet-M

Ikhtisar

Metodologi yang dijelaskan di sini menguraikan langkah-langkah terperinci yang terlibat dalam pendekatan top-down untuk estimasi pose real-time dari ayunan golf dan bisbol, memanfaatkan kekuatan RTMPose untuk lokalisasi titik kunci dan RTMDet untuk deteksi objek. Proses dibagi menjadi beberapa tahap: deteksi, lokalisasi titik kunci, dan pasca pemrosesan, masing-masing berkontribusi pada estimasi sendi tubuh yang presisi dan efisien dalam ayunan golf untuk analisis biomekanik.

–Sisipkan gambar–

1. Fase Deteksi: Lokalisasi Real-Time dengan RTMDet-M

Tahap pertama dari pendekatan top-down melibatkan deteksi pegolf dalam setiap frame video. Dalam skenario olahraga, khususnya golf, adegan biasanya terdiri dari satu pemain, menyederhanakan tugas deteksi dibandingkan dengan adegan keramaian.

1.1 Arsitektur Model

RTMDet-M digunakan sebagai detektor objek dalam pipeline. Ini menggunakan jaringan saraf konvolusi (CNN) backbone, khususnya backbone CSPNeXt, yang dirancang untuk mengoptimalkan performa deteksi objek real-time sambil mempertahankan keseimbangan antara kecepatan dan akurasi. Aspek kunci dari arsitektur meliputi:

Konvolusi depth-wise dengan kernel besar: Ini digunakan dalam lapisan backbone dan neck, meningkatkan bidang reseptif sambil mempertahankan biaya komputasi rendah.

Jaringan piramida fitur (FPN): Teknik ekstraksi fitur multi-skala yang memungkinkan deteksi objek pada berbagai skala, memastikan bahwa pegolf dapat dideteksi terlepas dari jarak mereka dari kamera.

1.2 Penugasan Label Dinamis

RTMDet-M memanfaatkan strategi penugasan label dinamis yang meningkatkan akurasi deteksi dengan menugaskan label lunak ke objek berdasarkan kombinasi kerugian klasifikasi dan lokalisasi. Penugasan label diatur oleh algoritma SimOTA, yang secara dinamis memilih sampel positif berdasarkan kemungkinan mereka cocok dengan objek kebenaran dasar. Metode ini memastikan deteksi yang kuat dalam kondisi pencahayaan dan lingkungan yang bervariasi yang sering ditemui dalam adegan golf outdoor.

1.3 Prediksi Kotak Pembatas

Detektor menghasilkan kotak pembatas yang membungkus pegolf di setiap frame. Kotak pembatas ini memberikan batasan spasial di mana model estimasi pose akan beroperasi, mengurangi beban komputasi pada fase estimasi pose berikutnya dengan fokus hanya pada area frame yang relevan. Dalam konteks ini, RTMDet-M menghasilkan kotak pembatas secara real-time pada lebih dari 300 FPS di perangkat keras berkinerja tinggi, memastikan bahwa sistem dapat mengikuti dinamika cepat dari ayunan golf.

1.4 Penekanan Non-Maksimum Orang (NMS)

Dalam pengaturan multi-orang (meskipun jarang dalam analisis ayunan golf), RTMDet-M menggabungkan algoritma Penekanan Non-Maksimum (NMS) pose yang menghilangkan deteksi titik kunci yang redundan, memastikan bahwa hanya deteksi paling percaya diri yang dipertahankan untuk setiap orang. Ini sangat penting dalam kasus di mana kotak pembatas yang tumpang tindih mungkin terdeteksi dalam adegan yang ramai atau urutan video.

1.5 Dataset Pelatihan dan Performa

RTMDet-M dilatih pada tugas klasifikasi biner pada instans orang dalam dataset Object356.

2. Fase Estimasi Pose: Lokalisasi Titik Kunci RTMPose-X

Setelah kotak pembatas untuk pegolf telah ditetapkan, fase berikutnya melibatkan estimasi lokasi yang tepat dari sendi tubuh utama dalam wilayah ini. RTMPose-X, model estimasi pose berkinerja tinggi, digunakan untuk tujuan ini.

2.1 Lokalisasi Titik Kunci Berbasis SimCC

RTMPose-X menggunakan algoritma SimCC (Klasifikasi Koordinat Sederhana), yang memperlakukan lokalisasi titik kunci sebagai masalah klasifikasi. Berbeda dengan metode berbasis peta panas tradisional, SimCC membagi koordinat x dan y dari setiap titik kunci menjadi bin dan mengklasifikasikan bin yang tepat di mana setiap titik kunci berada. Pendekatan ini secara signifikan mengurangi kompleksitas komputasi dan meningkatkan kecepatan inferensi sambil mempertahankan akurasi tinggi untuk tugas estimasi pose manusia.

2.2 Backbone CSPNeXt

Mirip dengan RTMDet-M, RTMPose-X juga menggunakan backbone CSPNeXt, yang disesuaikan untuk tugas prediksi padat seperti estimasi pose. Backbone CSPNeXt memiliki keuntungan dalam skenario ini untuk alasan berikut:

Arsitektur ringan: Arsitektur model dirancang untuk meminimalkan jumlah parameter sambil memaksimalkan throughput, menjadikannya ideal untuk aplikasi real-time.

Ekstraksi fitur efisien: Lapisan ekstraksi fitur CSPNeXt dioptimalkan untuk memproses gambar resolusi tinggi, yang sangat penting untuk mendeteksi detail kecil dalam bagian tubuh yang bergerak cepat selama ayunan golf, seperti pergelangan tangan, siku, dan lutut.

2.3 Representasi Titik Kunci

RTMPose-X menghasilkan lokasi titik kunci untuk semua bagian tubuh yang relevan, termasuk:

Sendi bagian atas tubuh: bahu-bahu, siku, pergelangan tangan, dan leher

Sendi tubuh bagian bawah: pinggul-pinggul, lutut-lutut, dan pergelangan kaki

Sendi tambahan: kepala, tulang belakang, dan titik-titik kunci lainnya yang relevan untuk analisis ayunan

Resolusi 384x288 untuk gambar input memastikan bahwa bahkan gerakan halus pada sendi-sendi dapat ditangkap secara akurat, sambil juga mempertahankan kemampuan sistem untuk berjalan secara real-time.

2.4 Pra-pemrosesan RTMPose: Pemrosesan Data Tanpa Bias (UDP)

Sebelum gambar yang dipotong dimasukkan ke dalam model RTMpose, langkah Pemrosesan Data Tanpa Bias (UDP) dilakukan. UDP mengatasi bias kritis dalam pemrosesan data RTMpose selama pelatihan dan pengujian, khususnya dalam transformasi sistem koordinat dan transformasi format titik kunci. Dalam pipeline estimasi pose manusia konvensional, operasi standar seperti pembalikan dan pengubahan ukuran sering kali menyebabkan ketidakselarasan hasil, terutama karena transformasi berbasis piksel, yang menyebabkan kehilangan presisi dan ketidakselarasan gambar yang dibalik. UDP memperbaiki ini dengan membangun transformasi sistem koordinat tanpa bias, mempertahankan penjajaran semantik di berbagai ruang koordinat selama operasi penting (pemotongan, pengubahan ukuran, rotasi, pembalikan). UDP juga memperkenalkan transformasi format titik kunci tanpa bias dengan mengenkode titik-titik kunci ke dalam peta panas tanpa mengenalkan bias posisional, selanjutnya disempurnakan melalui proses dekoding yang menyadari distribusi Gaussian. Pendekatan pemrosesan data ini secara sistematis meningkatkan performa model, seperti yang ditunjukkan dalam pengujian ekstensif pada dataset COCO dan CrowdPose, di mana ia mencapai akurasi yang ditingkatkan dan latensi inferensi yang berkurang di seluruh model top-down dan bottom-up [Ref].

3. Pasca Pemrosesan dan Penyempurnaan Pose

Setelah titik-titik kunci diprediksi, beberapa langkah pasca-pemrosesan diterapkan untuk menyempurnakan estimasi pose dan memastikan stabilitas di seluruh frame.

3.1 Pemulusan Pose

Ayunan golf melibatkan gerakan cepat, yang dapat memperkenalkan kebisingan atau fluktuasi dalam posisi titik kunci yang diestimasi di berbagai frame. Untuk mengurangi hal ini, Filter One-Euro diterapkan untuk memuluskan lintasan titik kunci seiring waktu, memastikan bahwa fluktuasi kecil yang tidak bersifat fisik dalam prediksi titik kunci dihilangkan. Filter One-Euro beroperasi dengan menyesuaikan bandwidth filter secara dinamis berdasarkan kecepatan gerakan, yang ideal untuk skenario seperti ayunan golf, di mana gerakan bervariasi secara signifikan dalam kecepatan di berbagai fase (backswing, downswing, dan follow-through).

3.2 Mekanisme Lompat Frame

Untuk optimasi lebih lanjut, mekanisme lompat frame diimplementasikan, di mana deteksi dilakukan hanya pada frame kunci, dan estimasi pose diinterpolasi untuk frame perantara. Ini drastis mengurangi beban komputasi tanpa mengorbankan akurasi dalam skenario dengan gerakan terbatas antar frame, seperti analisis slow-motion dari ayunan golf.

4. Pelacakan Temporal dan Konsistensi Urutan

Mengingat bahwa ayunan golf bersifat sekuensial, mempertahankan konsistensi temporal dalam estimasi pose sangat penting. RTMPose-X mengatasi hal ini melalui teknik pelacakan temporal, yang memastikan bahwa prediksi titik kunci konsisten di berbagai frame berturut-turut. Ini melibatkan pelacakan posisi titik kunci seiring waktu dan memastikan bahwa lintasan mereka mengikuti pola gerakan realistis berdasarkan batasan biomekanikal.

4.1 Analisis Kecepatan dan Akselerasi Titik Kunci

Selain melacak posisi titik kunci, RTMPose-X juga memperkirakan kecepatan dan akselerasi dari setiap titik kunci. Informasi ini penting untuk menganalisis dinamika ayunan golf, memberikan wawasan tentang metrik performa utama seperti:

Kecepatan ayunan: Dihitung berdasarkan kecepatan pergelangan tangan selama downswing.

Rotasi pinggul: Dianalisis melalui kecepatan rotasi sendi pinggul.

Jalur klub dan kecepatan kepala: Disimpulkan secara tidak langsung dari lintasan pergelangan tangan dan siku.

Metrik ini dapat dibandingkan dengan tolok ukur profesional untuk memberikan umpan balik tentang mekanik ayunan pemain.

5. Inferensi dan Performa Real-Time

Seluruh pipeline top-down dioptimalkan untuk performa real-time, memungkinkan estimasi pose pada lebih dari 90 FPS di GPU modern. Penggunaan arsitektur model yang sangat efisien (CSPNeXt) dan teknik inferensi cepat (SimCC) memastikan bahwa sistem dapat menangani input video dengan laju frame tinggi, menjadikannya cocok untuk umpan balik real-time selama sesi pelatihan.

6. Evaluasi dan Validasi

Model RTMPose-X dan RTMDet-M dievaluasi pada dataset standar seperti COCO dan MPII, menunjukkan performa kuat dengan presisi rata-rata (AP) 75,8% pada dataset COCO untuk titik-titik kunci tubuh. Hasil ini divalidasi terhadap anotasi ground-truth dalam dataset ayunan golf, memastikan robustness model dalam menangkap gerakan olahraga dinamis.

6.1 Metrik Performa

Mean Squared Error (MSE): Digunakan untuk mengukur akurasi prediksi Titik Kunci terhadap anotasi nilai dasar.

Average Precision (AP): Mengevaluasi performa keseluruhan model Estimasi Pose.

Waktu Pemrosesan Frame: Diukur untuk memastikan sistem memenuhi persyaratan real-time (<10 ms per frame).

7. Kesimpulan

Pendekatan Top-Down menggunakan RTMPose-X dan RTMDet-M memberikan metode yang efisien dan akurat untuk Estimasi Pose real-time dalam analitik olahraga, khususnya untuk analisis ayunan golf. Dengan deteksi Titik Kunci yang kuat, pelacakan temporal, dan inferensi real-time, metodologi ini menawarkan wawasan biomechanical terperinci tentang dinamika ayunan golf, membantu peningkatan performa dan pencegahan cedera.

Referensi

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset tantangan AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: