Покращення захоплення руху без маркерів для гольфу та бейсболу за допомогою RTMPose і RTMDet: Підхід зверху вниз

Покращення захоплення руху без маркерів для гольфу та бейсболу за допомогою RTMPose і RTMDet: Підхід зверху вниз

Резюме

Цей технічний звіт документує застосування RTMPose та RTMDet для точної та ефективної оцінки пози замаху в гольфі та бейсболі. Використовуючи передові методи, оптимізовані для роботи в реальному часі, ці моделі забезпечують детальне відстеження рухів тіла під час замаху в гольфі та бейсболі — критичну функцію для покращення показників у спортивній аналітиці. Ми висвітлюємо переваги підходу зверху вниз, де детектор RTMDet, що готується із коробки, ідентифікує гольфіста та гравця в бейсболі на кожному кадрі, а RTMPose оцінює позиції ключових опорних точок тіла.

1. Вступ

Оцінка пози стала ключовою в аналізі спортивної продуктивності, дозволяючи точно відстежувати рухи спортсменів. У гольфі та бейсболі захоплення біомеханічних даних замаху гравця забезпечує цінні insights щодо динаміки замаху, допомагаючи професіоналам та любителям вдосконалювати свою техніку. Традиційні методи оцінки пози в 2D часто стикаються з проблемами затримки та точності, особливо в сценаріях реального часу. Цей документ пропонує рішення з використанням RTMPose та RTMDet в межах mmpose Framework для детальної оцінки пози під час замаху в гольфі та бейсболі.

2. Історія питання

Складність замахів у гольфі та бейсболі вимагає точного вимірювання рухів тіла. Існуючі методи оцінки пози можуть не забезпечити необхідну точність для роботи в реальному часі. Успіхи в глибокому навчанні та комп’ютерному зорі запровадили моделі, як-от RTMPose та RTMDet, які пропонують покращену точність та ефективність.

3. Підхід зверху вниз з RTMdet та RTMpose

–insert figure–

3. RTMPose: Високопродуктивна модель оцінки пози

RTMPose [1] розроблена для високопродуктивної оцінки пози в реальному часі, оптимізована для ефективної роботи на обмеженому обладнанні.

Ключові особливості:

Архітектура моделі та ефективність: RTMpose використовує CSPNeXt як свій основний блок [1, 2], балансуючи швидкість та точність. CSPNeXt оптимізований для щільних завдань передбачення, як-от оцінка пози та виявлення об’єктів, забезпечуючи високу роздільну здатність та точність при збереженні обчислювальної ефективності.

Передбачення ключових точок: Використовує алгоритм на основі SimCC [1, 3], розглядаючи горизонтальні та вертикальні позиції ключових точок як окремі завдання класифікації. Це компактне представлення зменшує обчислювальне навантаження та підходить для розгортання на різних пристроях.

4. RTMDet: Основний детектор

RTMDet [4] виступає детектором перед RTMPose в конвеєрі підходу зверху вниз, ідентифікуючи місцезнаходження гольфіста або гравця в бейсболі в кожному кадрі.

Ключові особливості:

Архітектура моделі та ефективність: RTMDet використовує модифіковану версію CSPDarkNet [5], яка більш навчається та точніша за більшість моделей YOLO. Модифікована версія використовує глибокі згортки з великими ядрами для збалансування складності та швидкості та є ефективною як на GPU, так і на CPU. Вона ідеальна для застосувань реального часу, як-от відстеження спортивної продуктивності.

Універсальність: Обробляє різноманітні завдання виявлення об’єктів, включаючи сегментацію екземплярів та повернену об’єктів. Забезпечує точну локалізацію гравця навіть у динамічних сценах.

5. Переваги використання RTMDet та RTMPose при аналізі замаху в гольфі та бейсболі

5.1 Вища точність у сценах без скупчення

У типових налаштуваннях гольфу/бейсболу з кількома особами у кадрі RTMDet ізолює гольфіста/гравця в бейсболі, дозволяючи RTMPose обробляти кожну виявлену особу з високою точністю. Це уникає складності методів знизу вгору, які обробляють усі ключові точки для всіх осіб у кадрі одночасно. Підхід зверху вниз також може включати алгоритм постобробки RTMdet для ідентифікації правильної особи (тобто гольфіста або гравця в бейсболі) перед виконанням оцінки пози. Крім того, RTMPose були попередньо навчені на розширеному зображеному матеріалі, що містить

5.2 Ефективне обчислення та продуктивність у реальному часі

Використання легких моделей, як-от RTMdet та RTMpose, підтримує низьку затримку, забезпечуючи аналіз замаху в реальному часі на обладнанні споживчого класу. Це особливо корисно для надання негайного живого зворотного зв’язку під час тренувань або навчальних сеансів. Система захоплення руху без маркерів Swing Catalyst — одна з небагатьох студійних систем, які забезпечують гольфістам та гравцям в бейсболі живий зворотний зв’язок захоплення руху.

5.3 Детальний аналіз ключових точок

RTMPose виявляє набір із 26 опорних точок тіла [6], відображених на рисунку 1 нижче, необхідних для аналізу кінематики замаху в гольфі та бейсболі. Halpe26 — це розширений набір, який включає додаткові маркери на ступнях і голові порівняно з більш стандартним набором Coco з 17 маркерами.

–Insert Figure–

6. Методологія для захоплення руху без маркерів у гольфі та бейсболі

6.1 Фаза виявлення: RTMDet

Застосований до відеокадрів гольфіста або гравця в бейсболі, RTMDet генерує обмежувальні коробки навколо гравця, які передаються до RTMPose. Це зосереджує оцінку пози на релевантних областях зображення, зменшуючи обчислювальне навантаження.

–Insert Image–

6.2 Фаза оцінки пози: RTMPose

RTMPose оцінює позиції ключових точок в межах обмежувальної коробки. Критичні суглоби для аналізу замаху в гольфі та бейсболі включають зап’ястя, ліктів, плечі, стегна та колін. Ці ключові точки оцінюють кути тіла та позиції під час фаз замаху: замаху назад, нисхідної фази розмаху та follow-through.

–Insert Image–

6.3 Метрики продуктивності

Загальна продуктивність RTMPose вимірюється за допомогою метрик, як-от Average Precision (AP) на тестових наборах оцінки пози, як-от MS COCO. Нижче наведена продуктивність найкращих рейтингових моделей на часто використовуваному тесті Coco. На наборі для перевірки MS COCO RTMPose-X — найбільш продуктивна модель, здатна забезпечити зворотний зв’язок у реальному часі і досягає до 75,8% AP з частотою кадрів, що перевищує ?? FPS на GPU споживчого класу, що робить її придатною для аналізу високошвидкісних видів спорту.

Ранг Модель Роздільна здатність Розмір/параметри (Млн) AP Висновок у реальному часі

1 Sapiens-2B 1024x768 2000 82.2 Ні

2 Sapiens-1B 1024x768 1000 82.1 Ні

3 Sapiens-0.6B 1024x768 600 81.2 Ні

4 Sapiens-0.3B 1024x768 300 79.6 Ні

5 VitPose-H 256x192 632 79.4 Ні

6 RTMPose-X 384x288 49 78.8 Так

7 VitPose-L 256x192 307 78.6 Ні

8 RTMPose-L 384x288 28 78.3 Так

9 HRFormer 256x192 43 77.2 Ні

10 HRNet-UDP 384x288 64 77.2 Так

11 VitPose-B 256x192 86 77.0 Так

12 RTMPose-L 256x198 28 76.7 Так

13 RTMPose-M 384x288 14 76.6 Так

14 HRNet 384x288 64 76.3 Так

15 VitPose-S 256x192 43 75.8 Так

16 RTMPose-M 256x192 14 74.9 Так

17 SimpleBaseline 256x192 60 73.5 Так

18 FastPose 256x192 79 73.3 Так

7. Застосування при аналізі гайву в гольфі

Застосовуючи фреймворк RTMPose-X та RTMDet-M:

Відстежувати рухи суглобів кадр за кадром: Надає комплексні дані для аналізу кожної фази замаху.

Надавати відгук у реальному часі: Дозволяє отримувати миттєві висновки про позу та форму замаху під час тренувальних сеансів.

Порівнювати з ідеальною механікою: Дозволяє порівняти з ідеальною кінематикою замаху для виявлення областей удосконалення.

8. Висновок

Інтеграція RTMPose-X та RTMDet-M пропонує потужне рішення для аналізу гайву в реальному часі. Завдяки високій точності, низькій затримці та сумісності з різними апаратними платформами, цей підхід зверху вниз забезпечує детальні висновки про механіку замаху. Він має значний потенціал для допомоги як аматорам, так і професійним гольфістам у поліпшенні їхної продуктивності.

9. Майбутні розробки

Майбутні розробки можуть включати:

Інтеграція алгоритмів машинного навчання: Для надання прогностичної аналітики та пропозиції коригувань для підвищення ефективності замаху.

Розширення на сценарії з декількома людьми: Підвищення застосовності в командних видах спорту або групових тренуваннях.

Розроблення зручного для користувача інтерфейсу: Створення додатків та інструментів, які зроблять цю технологію доступною для тренерів та спортсменів без технічної підготовки.

Додаток

Детальна методологія: Підхід зверху вниз для оцінки пози гайву в гольфі з використанням RTMPose-X та RTMDet-M

Огляд

Описана тут методологія окреслює детальні кроки, задіяні у підході зверху вниз для оцінки пози в реальному часі при замаху в гольфі та бейсболі, використовуючи сильні сторони RTMPose для локалізації ключових точок та RTMDet для виявлення об’єктів. Процес розділений на кілька етапів: виявлення, локалізація ключових точок та постобробка, кожна з яких сприяє точній та ефективній оцінці суглобів тіла при замаху в гольфі для біомеханічного аналізу.

–Вставити малюнок–

1. Фаза виявлення: Локалізація в реальному часі з RTMDet-M

Перший етап підходу зверху вниз передбачає виявлення гольфіста в межах кожного кадру відео. В спортивних сценаріях, особливо в гольфі, сцена зазвичай складається з одного гравця, що спрощує завдання виявлення порівняно зі сценами натовпу.

1.1 Архітектура моделі

RTMDet-M використовується як детектор об’єктів у конвеєрі. Він використовує основу згорткової нейронної мережі (CNN), зокрема backbone CSPNeXt, розроблену для оптимізації продуктивності виявлення об’єктів у реальному часі з дотриманням балансу між швидкістю та точністю. Ключові аспекти архітектури включають:

Grandes-kernel depth-wise згортки: Вони використовуються в шарах backbone та neck, збільшуючи рецептивне поле, одночасно зберігаючи низьку обчислювальну вартість.

Feature pyramid network (FPN): Метод багатомасштабної екстракції ознак, який дозволяє виявляти об’єкти в різних масштабах, забезпечуючи можливість виявлення гольфіста незалежно від його відстані від камери.

1.2 Динамічне призначення міток

RTMDet-M використовує динамічну стратегію призначення міток, яка покращує точність виявлення шляхом призначення м’яких міток об’єктам на основі комбінації втрати класифікації та локалізації. Призначення міток керується алгоритмом SimOTA, який динамічно вибирає позитивні зразки на основі вірогідності їх відповідності об’єкту наземної істини. Цей метод забезпечує надійне виявлення в умовах змінного освітлення та різних умовах навколишнього середовища, які часто зустрічаються у зовнішніх сценах гольфу.

1.3 Прогнозування обмежувальної коробки

Детектор видає обмежувальні коробки, які охоплюють гольфіста в кожному кадрі. Ці обмежувальні коробки забезпечують просторові обмеження, в межах яких буде працювати модель оцінки пози, зменшуючи обчислювальне навантаження на наступну фазу оцінки пози, зосереджуючись лише на відповідних областях кадру. У цьому контексті RTMDet-M генерує обмежувальні коробки в реальному часі зі швидкістю понад 300 FPS на високопродуктивному обладнанні, забезпечуючи можливість слідування за швидкою динамікою гайву в гольфі.

1.4 Non-Maximum Suppression для осіб (NMS)

У багатоосібних сценаріях (хоча і рідких у аналізі гайву в гольфі) RTMDet-M включає алгоритм Non-Maximum Suppression для позиції (NMS), який усуває надлишкові виявлення ключових точок, забезпечуючи збереження лише найбільш впевнених виявлень для кожної особи. Це критично важливо у випадках, коли перекриваючи обмежувальні коробки можуть бути виявлені в переповнених сценах або відеопослідовностях.

1.5 Набір даних для навчання та продуктивність

RTMDet-M навчається на завданні бінарної класифікації екземплярів осіб у наборі даних Object356.

2. Фаза оцінки пози: локалізація ключових точок RTMPose-X

Після встановлення обмежувальної коробки для гольфіста наступна фаза передбачає оцінку точного розташування ключових суглобів тіла в цій області. Для цієї мети використовується RTMPose-X, високопродуктивна модель оцінки пози.

2.1 Локалізація ключових точок на основі SimCC

RTMPose-X використовує алгоритм SimCC (Simple Coordinate Classification), який розглядає локалізацію ключових точок як проблему класифікації. На відміну від традиційних методів на основі тепловізуалізації, SimCC розділяє координати x та y кожної ключової точки на контейнери і класифікує точний контейнер, де розташована кожна ключова точка. Цей підхід значно зменшує обчислювальну складність і підвищує швидкість виведення, одночасно зберігаючи високу точність для завдань оцінки людської пози.

2.2 Основа CSPNeXt

Подібно до RTMDet-M, RTMPose-X також використовує основу CSPNeXt, яка адаптована для завдань щільного передбачення, таких як оцінка пози. Основа CSPNeXt має переваги в цьому сценарії з наступних причин:

Легка архітектура: архітектура моделі розроблена для мінімізації кількості параметрів під час максимізації пропускної спроможності, що робить її ідеальною для застосувань у реальному часі.

Ефективне вилучення ознак: шари вилучення ознак CSPNeXt оптимізовані для обробки зображень високої роздільної здатності, що критично важливо для виявлення дрібних деталей у швидко рухаючихся частинах тіла під час гайву в гольфі, таких як зап’ястя, ліктя та колін.

2.3 Представлення ключових точок

RTMPose-X видає локації ключових точок для всіх відповідних частин тіла, включаючи:

Суглоби верхної частини тіла: плечі, ліктя, зап’ястя та шия

Суглоби нижної частини тіла: стегна, колін та щиколотки

Додаткові суглоби: голова, хребет та інші ключові точки, релевантні для аналізу замаху

Роздільна здатність 384x288 для вхідних зображень забезпечує, що навіть тонкі рухи суглобів можуть бути захоплені точно, одночасно зберігаючи здатність системи працювати в реальному часі.

2.4 Попередня обробка RTMPose: неупереджена обробка даних (UDP)

Перед введенням обрізаного зображення в модель RTMpose виконується крок неупередженої обробки даних (UDP). UDP усуває критичні упередження в обробці даних RTMpose під час навчання та тестування, конкретно в трансформаціях системи координат та форматів ключових точок. У традиційних конвеєрах оцінки людської пози стандартні операції, такі як відзеркалення та змінення розміру, часто викликають невирівнювання результатів, особливо через піксельні трансформації, що призводить до втрати точності та невирівнювання відзеркалених зображень. UDP виправляє це, встановлюючи неупередженену трансформацію системи координат, що зберігає семантичне вирівнювання в різних координатних просторах під час важливих операцій (обрізання, змінення розміру, обертання, відзеркалення). UDP також вводить неупередженену трансформацію формату ключових точок, кодуючи ключові точки в тепловізуалізацію без введення упередження позиції, додатково уточнене через процес декодування з урахуванням розподілу Гаусса. Цей підхід до обробки даних систематично підвищує продуктивність моделі, як показано в результатах обширних тестів на наборах даних COCO та CrowdPose, де було досягнуто підвищену точність та зменшену затримку виведення для моделей top-down та bottom-up [Ref].

3. Постобробка та уточнення пози

Після прогнозування ключових точок застосовуються кілька кроків постобробки для уточнення оцінки пози та забезпечення стабільності в кадрах.

3.1 Згладжування пози

Гайви в гольфі передбачають швидкий рух, який може вносити шум або флуктуації в оцінені позиції ключових точок в кадрах. Для пом’якшення цього до траєкторій ключових точок застосовується One-Euro Filter для згладжування в часі, забезпечуючи усунення малих, нефізичних флуктуацій у прогнозах ключових точок. One-Euro Filter працює шляхом динамічного коригування пропускної здатності фільтра на основі швидкості руху, що ідеально підходить для сценаріїв, таких як гайви в гольфі, де рух значно варіюється за швидкістю в різних фазах (замах назад, нисхідна фаза розмаху та follow-through).

3.2 Механізм пропуску кадрів

Для подальшої оптимізації застосовується механізм пропуску кадрів, при якому виявлення виконується лише на ключових кадрах, а оцінка пози інтерполюється для проміжних кадрів. Це значно зменшує обчислювальне навантаження без втрати точності в сценаріях з обмеженим рухом між кадрами, таких як аналіз гайву в гольфі в повільному русі.

4. Тимчасове відстеження та послідовна узгодженість

Враховуючи, що гайви в гольфі за своєю природою послідовні, збереження тимчасової узгодженості в оцінці пози є життєво важливим. RTMPose-X вирішує це за допомогою методів тимчасового відстеження, які забезпечують узгодженість прогнозів ключових точок в послідовних кадрах. Це включає відстеження позицій ключових точок в часі та забезпечення того, що їх траєкторії слідують реалістичним закономірностям руху на основі біомеханічних обмежень.

4.1 Аналіз швидкості та прискорення ключових точок

Окрім відстеження позицій ключових точок, RTMPose-X також оцінює швидкість та прискорення кожної ключової точки. Ця інформація критична для аналізу динаміки гайву в гольфі, надаючи розуміння ключових метрик продуктивності, таких як:

Швидкість замаху: розраховується на основі швидкості зап’ястя під час нисхідної фази розмаху.

Ротація стегна: аналізується через кутову швидкість ротації стегнових суглобів.

Траєкторія клаба та швидкість голівки: опосередковано виводиться з траєкторій зап’ястя та ліктя.

Ці метрики можна порівняти з професійними орієнтирами, щоб надати зворотний зв’язок про механіку замаху гравця.

5. Виведення та продуктивність у реальному часі

Весь конвеєр top-down підходу оптимізований для роботи в реальному часі, дозволяючи оцінку пози зі швидкістю понад 90 FPS на сучасних GPU. Використання високоефективних архітектур моделей (CSPNeXt) та швидких методів виведення (SimCC) забезпечує, що система може обробляти відеовхід з високою частотою кадрів, що робить її придатною для реального часового зворотного зв’язку під час тренувальних сеансів.

6. Оцінка та валідація

Моделі RTMPose-X та RTMDet-M оцінюються на стандартних наборах даних, таких як COCO та MPII, показуючи сильну продуктивність з середньою точністю (AP) 75,8% на наборі даних COCO для ключових точок тіла. Ці результати валідуються відносно анотацій істинного значення в наборах даних гайву в гольфі, забезпечуючи надійність моделі при захопленні динамічних рухів спорту.

6.1 Метрики продуктивності

Mean Squared Error (MSE): Використовується для кількісного визначення точності прогнозування ключових точок порівняно з еталонними анотаціями.

Average Precision (AP): Оцінює загальну продуктивність моделі оцінки пози.

Час обробки кадру: Оцінюється для забезпечення того, щоб система відповідала вимогам реального часу (<10 мс на кадр).

7. Висновок

Підхід зверху вниз з використанням RTMPose-X та RTMDet-M забезпечує ефективний та точний метод для оцінки пози в реальному часі в спортивній аналітиці, зокрема для аналізу замаху в гольфі. Завдяки надійному виявленню ключових точок, часовому відстеженню та висновкам у реальному часі ця методологія забезпечує детальні біомеханічні вигляди на динаміку замаху в гольфі, сприяючи поліпшенню продуктивності та профілактиці травм.

Посилання

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] AI challenge dataset:

[] MS Coco dataset:

[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324

[] MPII dataset:

[] sub-JHMBD dataset: