Повышение качества бесмаркерного захвата движения при замахе в гольфе и бейсболе с использованием RTMPose и RTMDet: подход сверху вниз

Аннотация

В этом белом документе описывается применение RTMPose и RTMDet для точной и эффективной оценки позы при замахе в гольфе и бейсболе. Используя передовые технологии, оптимизированные для работы в реальном времени, эти модели позволяют детально отслеживать движения тела во время замаха в гольфе и бейсболе — критически важную функцию для повышения производительности в аналитике спорта. Мы подчеркиваем преимущества подхода сверху вниз, при котором готовый к использованию детектор RTMDet выявляет гольфиста и бейсболиста в каждом кадре, а RTMPose оценивает позиции ключевых суставов тела.

1. Введение

Оценка позы стала ключевым элементом анализа спортивной производительности, позволяя точно отслеживать движения спортсменов. В гольфе и бейсболе получение биомеханических данных замаха игрока дает ценные сведения о динамике замаха, помогая профессионалам и любителям совершенствовать свою технику. Традиционные методы двумерной оценки позы часто сталкиваются с проблемами задержки и точности, особенно в сценариях реального времени. В этой работе предлагается решение с использованием RTMPose и RTMDet в рамках mmpose Framework для детальной оценки позы во время замаха в гольфе и бейсболе.

2. Основные сведения

Сложность замаха в гольфе и бейсболе требует точного измерения движений тела. Существующие методы оценки позы могут не обеспечить необходимую точность для работы в реальном времени. Успехи в глубоком обучении и компьютерном зрении привели к появлению моделей, таких как RTMPose и RTMDet, которые обеспечивают улучшенную точность и эффективность.

3. Подход сверху вниз с RTMdet и RTMpose

–insert figure–

3. RTMPose: высокопроизводительная модель оценки позы

RTMPose [1] разработан для высокопроизводительной оценки позы в реальном времени, оптимизирован для эффективной работы на оборудовании с ограниченными ресурсами.

Ключевые особенности:

Архитектура модели и эффективность: RTMpose использует CSPNeXt в качестве основы [1, 2], обеспечивая баланс между скоростью и точностью. CSPNeXt оптимизирован для задач плотного прогнозирования, таких как оценка позы и обнаружение объектов, обеспечивая высокое разрешение и точность при сохранении вычислительной эффективности.

Прогнозирование ключевых точек: использует алгоритм на основе SimCC [1, 3], обрабатывая горизонтальные и вертикальные позиции ключевых точек как отдельные задачи классификации. Это компактное представление снижает вычислительную нагрузку и подходит для развертывания на различных устройствах.

4. RTMDet: основной детектор

RTMDet [4] выступает в роли детектора, предшествующего RTMPose в конвейере сверху вниз, определяя местоположение гольфиста или бейсболиста в каждом кадре.

Ключевые особенности:

Архитектура модели и эффективность: RTMDet использует модифицированную версию CSPDarkNet [5], которая более обучаема и точна, чем многие модели YOLO. Модифицированная версия использует большие глубинные свертки для сбалансирования сложности и скорости и эффективна как на GPU, так и на CPU. Она идеальна для приложений реального времени, таких как отслеживание спортивной производительности.

Универсальность: обрабатывает различные задачи обнаружения объектов, включая сегментацию экземпляров и обнаружение повернутых объектов. Обеспечивает точное определение местоположения игрока даже в динамичных сценах.

5. Преимущества использования RTMDet и RTMPose при анализе замаха в гольфе и бейсболе

5.1 Более высокая точность в сценах с небольшим количеством людей

В типичных условиях гольфа/бейсбола с несколькими людьми в кадре RTMDet выделяет гольфиста/бейсболиста, позволяя RTMPose обрабатывать каждого обнаруженного человека с высокой точностью. Это избегает сложности методов снизу вверх, которые одновременно обрабатывают все ключевые точки всех людей в кадре. Подход сверху вниз может также включать алгоритм постобработки RTMdet для определения правильного человека (т.е. гольфиста или бейсболиста) перед выполнением оценки позы. Кроме того, RTMPose предварительно обучена на расширенном материале изображений, содержащем

5.2 Эффективные вычисления и производительность в реальном времени

Использование легких моделей, таких как RTMdet и RTMpose, поддерживает низкую задержку, обеспечивая анализ свинга в реальном времени на потребительском оборудовании. Это особенно полезно для предоставления немедленной обратной связи во время тренировок или учебных сеансов. Система SwingCatalyst для бесмаркерного захвата движения — одна из немногих студийных систем, обеспечивающих живую обратную связь по захвату движения для гольфистов и бейсболистов.

5.3 Детальный анализ ключевых точек

RTMPose обнаруживает конфигурацию из 26 ключевых точек тела [6], показанных на рисунке 1 ниже, необходимых для анализа кинематики замаха в гольфе и бейсболе. Halpe26 — это расширенная конфигурация, которая включает дополнительные маркеры на ступнях и голове по сравнению с более стандартной конфигурацией COCO с 17 маркерами.

–Insert Figure–

6. Методология бесмаркерного захвата движения при замахе в гольфе и бейсболе

6.1 Фаза обнаружения: RTMDet

Применяется к видеокадрам гольфиста или бейсболиста, RTMDet генерирует ограничивающие прямоугольники вокруг игрока, которые передаются в RTMPose. Это сосредоточивает оценку позы на соответствующих областях изображения, снижая вычислительную нагрузку.

–Insert Image–

6.2 Фаза оценки позы: RTMPose

RTMPose оценивает позиции ключевых точек внутри ограничивающего прямоугольника. Критически важные суставы для анализа замаха в гольфе и бейсболе включают запястья, локти, плечи, бедра и колени. Эти ключевые точки оценивают углы и позиции тела во время фаз замаха: отмаха, фазы нисходящего взмаха и проводки.

–Insert Image–

6.3 Метрики производительности

Общая производительность RTMPose измеряется метриками, такими как Average Precision (AP), по эталонам оценки позы, таким как MS COCO. Ниже приведена производительность моделей с лучшим рейтингом на часто используемом эталоне COCO. На наборе данных MS COCO val RTMPose-X — это модель с лучшей производительностью, способная обеспечить обратную связь в реальном времени и достигающая до 75,8% AP с частотой кадров, превышающей ?? FPS на потребительских GPU, что делает ее подходящей для анализа высокоскоростного спорта.

Ранг Модель Разрешение Размер/параметры (млн) AP Онлайн-вывод в реальном времени

1 Sapiens-2B 1024x768 2000 82,2 Нет

2 Sapiens-1B 1024x768 1000 82,1 Нет

3 Sapiens-0.6B 1024x768 600 81,2 Нет

4 Sapiens-0.3B 1024x768 300 79.6 No

5 VitPose-H 256x192 632 79.4 No

6 RTMPose-X 384x288 49 78.8 Yes

7 VitPose-L 256x192 307 78.6 No

8 RTMPose-L 384x288 28 78.3 Yes

9 HRFormer 256x192 43 77.2 No

10 HRNet-UDP 384x288 64 77.2 Yes

11 VitPose-B 256x192 86 77.0 Yes

12 RTMPose-L 256x198 28 76.7 Yes

13 RTMPose-M 384x288 14 76.6 Yes

14 HRNet 384x288 64 76.3 Yes

15 VitPose-S 256x192 43 75.8 Yes

16 RTMPose-M 256x192 14 74.9 Yes

17 SimpleBaseline 256x192 60 73.5 Yes

18 FastPose 256x192 79 73.3 Yes

7. Применение в анализе свинга в гольфе

Применяя платформу RTMPose-X и RTMDet-M:

Отслеживание движений суставов кадр за кадром: обеспечивает полные данные для анализа каждой фазы свинга.

Предоставление обратной связи в реальном времени: позволяет получить немедленные сведения о позе и технике свинга во время тренировочных сеансов.

Сравнение с идеальной механикой: позволяет сравнивать кинематику свинга с идеальными показателями для выявления областей улучшения.

8. Заключение

Интеграция RTMPose-X и RTMDet-M предоставляет мощное решение для анализа свинга в гольфе в реальном времени. Благодаря высокой точности, низкой задержке и совместимости с различными аппаратными платформами этот подход сверху вниз обеспечивает детальное понимание механики свинга. Он обладает значительным потенциалом для помощи как любительским, так и профессиональным гольфистам в повышении их производительности.

9. Планы развития

Будущие разработки могут включать:

Интеграция алгоритмов машинного обучения: для предоставления предиктивной аналитики и рекомендаций по улучшению эффективности свинга.

Расширение на сценарии с несколькими спортсменами: повышение применимости в командных видах спорта или групповых тренировочных средах.

Разработка удобного пользовательского интерфейса: создание приложений и инструментов, которые делают эту технологию доступной тренерам и спортсменам без технической подготовки.

Приложение

Детальная методология: Подход сверху вниз для оценки позы при свинге в гольфе с использованием RTMPose-X и RTMDet-M

Обзор

Описываемая здесь методология содержит подробное описание шагов, необходимых для подхода сверху вниз при оценке позы в реальном времени при свинге в гольфе и бейсболе, используя возможности RTMPose для локализации ключевых точек и RTMDet для обнаружения объектов. Процесс разделен на несколько этапов: обнаружение, локализация ключевых точек и постобработка, каждый из которых способствует точной и эффективной оценке суставов тела при свинге в гольфе для биомеханического анализа.

–Insert figure–

1. Фаза обнаружения: локализация в реальном времени с RTMDet-M

Первый этап подхода сверху вниз включает обнаружение гольфиста в каждом кадре видео. В спортивных сценариях, особенно в гольфе, сцена обычно состоит из одного спортсмена, что упрощает задачу обнаружения по сравнению со сценами с большим количеством людей.

1.1 Архитектура модели

RTMDet-M используется в качестве детектора объектов в конвейере. Он использует конволюционную нейронную сеть (CNN) с основой, в частности основу CSPNeXt, разработанную для оптимизации производительности обнаружения объектов в реальном времени при сохранении баланса между скоростью и точностью. Ключевые аспекты архитектуры включают:

Сверточные операции с большим ядром по глубине: они используются в слоях основы и шеи, расширяя поле восприятия при сохранении низких вычислительных затрат.

Пирамида признаков (FPN): многомасштабный метод извлечения признаков, позволяющий обнаруживать объекты в различных масштабах, обеспечивая обнаружение гольфиста независимо от его расстояния от камеры.

1.2 Динамическое назначение меток

RTMDet-M использует стратегию динамического назначения меток, которая повышает точность обнаружения путем назначения мягких меток объектам на основе комбинации потерь классификации и локализации. Назначение меток регулируется алгоритмом SimOTA, который динамически выбирает положительные образцы на основе вероятности соответствия наземному объекту истинности. Этот метод обеспечивает надежное обнаружение в условиях переменного освещения и окружающей среды, часто встречаемых в сценах уличного гольфа.

1.3 Предсказание Ограничивающего Прямоугольника

Детектор выводит Ограничивающие Прямоугольники, которые охватывают гольфиста в каждом кадре. Эти Ограничивающие Прямоугольники обеспечивают пространственные ограничения, в пределах которых будет работать модель оценки позы, снижая вычислительную нагрузку на последующую фазу оценки позы, сосредоточиваясь только на релевантных областях кадра. В этом контексте RTMDet-M генерирует Ограничивающие Прямоугольники в реальном времени с частотой свыше 300 FPS на высокопроизводительном оборудовании, обеспечивая соответствие быстродинамичным процессам свинга в гольфе.

1.4 Подавление нескольких срабатываний (NMS)

В многопользовательских сценариях (хотя редких при анализе свинга в гольфе) RTMDet-M использует алгоритм подавления нескольких срабатываний (NMS) для обнаружения ключевых точек, который устраняет избыточные обнаружения, гарантируя сохранение только наиболее надёжных обнаружений для каждого человека. Это критически важно в случаях, когда перекрывающиеся Ограничивающие Прямоугольники могут быть обнаружены в скученных сценах или видеопоследовательностях.

1.5 Dataset обучения и Производительность

RTMDet-M обучается на задаче бинарной классификации для экземпляров людей в dataset Object356.

2. Фаза оценки позы: локализация ключевых точек RTMPose-X

После определения Ограничивающего Прямоугольника для гольфиста следующая фаза включает оценку точного местоположения ключевых суставов тела в пределах этого региона. Для этой цели используется RTMPose-X, высокопроизводительная модель оценки позы.

2.1 Локализация ключевых точек на основе SimCC

RTMPose-X использует алгоритм SimCC (Simple Coordinate Classification), который рассматривает локализацию ключевых точек как задачу классификации. В отличие от традиционных методов, основанных на тепловых картах, SimCC разбивает координаты x и y каждой ключевой точки на бины и классифицирует точный бин, в котором расположена каждая ключевая точка. Этот подход значительно снижает сложность вычислений и повышает скорость вывода, сохраняя высокую точность для задач оценки позы человека.

2.2 Остов CSPNeXt

Подобно RTMDet-M, RTMPose-X также использует остов CSPNeXt, который оптимизирован для задач плотного предсказания, таких как оценка позы. Остов CSPNeXt является преимущественным в этом сценарии по следующим причинам:

Лёгкая архитектура: архитектура модели разработана для минимизации количества параметров при максимизации пропускной способности, что идеально подходит для приложений в реальном времени.

Эффективное извлечение признаков: слои извлечения признаков CSPNeXt оптимизированы для обработки высокоразрешённых изображений, что критически важно для обнаружения мелких деталей в быстро движущихся частях тела во время свинга в гольфе, таких как запястья, локти и колени.

2.3 Представление ключевых точек

RTMPose-X выводит местоположения ключевых точек для всех релевантных частей тела, включая:

Суставы верхней части тела: плечи, локти, запястья и шея

Суставы нижней части тела: бедра, колени и голеностопные суставы

Дополнительные суставы: голова, позвоночник и другие ключевые точки, релевантные для анализа свинга

Разрешение 384x288 для входных изображений гарантирует, что даже тонкие движения суставов могут быть захвачены точно, при этом сохраняя способность системы работать в реальном времени.

2.4 Предобработка RTMPose: беспристрастная обработка данных (UDP)

Прежде чем обрезанное изображение поступает в модель RTMpose, выполняется шаг беспристрастной обработки данных (UDP). UDP устраняет критические смещения в обработке данных RTMpose во время обучения и тестирования, в частности при преобразованиях системы координат и формата ключевых точек. В обычных конвейерах оценки позы человека стандартные операции, такие как отражение и изменение размера, часто вызывают несоответствие результатов, особенно из-за преобразований на основе пикселей, что приводит к потере точности и несоответствию отражённых изображений. UDP исправляет это, устанавливая беспристрастное преобразование системы координат, сохраняя семантическое выравнивание между различными пространствами координат при критических операциях (обрезка, изменение размера, ротация, отражение). UDP также вводит беспристрастное преобразование формата ключевых точек путём кодирования ключевых точек в тепловые карты без введения смещения положения, дополнительно уточняемого посредством процесса декодирования с учётом распределения Гаусса. Этот подход к обработке данных систематически улучшает производительность модели, как показано в обширных тестах на наборах данных COCO и CrowdPose, где была достигнута повышенная точность и сокращена задержка вывода для моделей сверху вниз и снизу вверх [Ref].

3. Постобработка и уточнение позы

После предсказания ключевых точек применяются несколько этапов постобработки для уточнения оценки позы и обеспечения стабильности на протяжении кадров.

3.1 Сглаживание позы

Свинги в гольфе включают быстрое движение, которое может привести к шуму или колебаниям в предполагаемых положениях ключевых точек на протяжении кадров. Для устранения этого применяется фильтр One-Euro для сглаживания траекторий ключевых точек во времени, обеспечивая устранение небольших, не физических колебаний в предсказаниях ключевых точек. Фильтр One-Euro работает путём динамической регулировки пропускной способности фильтра на основе скорости движения, что идеально для сценариев, таких как свинги в гольфе, где движение значительно варьируется по скорости на разных фазах (отмах, фаза нисходящего взмаха и проводка).

3.2 Механизм пропуска кадров

Для дальнейшей оптимизации реализован механизм пропуска кадров, при котором обнаружение выполняется только на ключевых кадрах, а оценка позы интерполируется для промежуточных кадров. Это значительно снижает вычислительную нагрузку без ущерба точности в сценариях с ограниченным движением между кадрами, таких как анализ в замедленной съёмке свинга в гольфе.

4. Временное отслеживание и последовательная согласованность

Учитывая, что свинги в гольфе по своей природе последовательны, поддержание временной согласованности при оценке позы является жизненно важным. RTMPose-X решает эту проблему посредством методов временного отслеживания, которые гарантируют согласованность предсказаний ключевых точек на протяжении последовательных кадров. Это включает отслеживание положений ключевых точек во времени и обеспечение того, что их траектории следуют реалистичным паттернам движения на основе биомеханических ограничений.

4.1 Анализ скорости и ускорения ключевых точек

Помимо отслеживания положений ключевых точек, RTMPose-X также оценивает скорость и ускорение каждой ключевой точки. Эта информация критически важна для анализа динамики свинга в гольфе, обеспечивая понимание ключевых метрик производительности, таких как:

Скорость замаха: рассчитывается на основе скорости запястья во время фазы нисходящего взмаха.

Ротация бедра: анализируется через скорость ротационного движения тазобедренного сустава.

Траектория клюшки и скорость головки: выводятся косвенно из траекторий запястья и локтя.

Эти метрики можно сравнивать с профессиональными эталонами для предоставления отзыва о механике свинга игрока.

5. Вывод и производительность в реальном времени

Весь конвейер сверху вниз оптимизирован для производительности в реальном времени, позволяя проводить оценку позы со скоростью свыше 90 FPS на современных GPU. Использование высокоэффективных архитектур моделей (CSPNeXt) и быстрых методов вывода (SimCC) гарантирует, что система может обрабатывать видеовход с высокой частотой кадров, что делает её подходящей для обратной связи в реальном времени во время тренировочных сеансов.

6. Оценка и валидация

Модели RTMPose-X и RTMDet-M оцениваются на стандартных dataset, таких как COCO и MPII, демонстрируя сильную производительность с средней точностью (AP) 75,8% на dataset COCO для ключевых точек тела. Эти результаты валидируются в сравнении с аннотациями истинных значений в dataset свинга в гольфе, обеспечивая надёжность модели при захвате динамических движений спорта.

6.1 Метрики производительности

Средняя квадратичная ошибка (MSE): Используется для количественной оценки точности предсказания ключевых точек относительно аннотаций истинных значений.

Average Precision (AP): Оценивает общую производительность модели оценки позы.

Время обработки кадра: Тестируется, чтобы убедиться, что система соответствует требованиям реального времени (<10 мс на кадр).

7. Заключение

Подход сверху вниз, использующий RTMPose-X и RTMDet-M, обеспечивает эффективный и точный метод для оценки позы в реальном времени в спортивной аналитике, в частности для анализа свинга в гольфе. Благодаря надежному обнаружению ключевых точек, временному отслеживанию и выводу в реальном времени, данная методология обеспечивает детальное понимание биомеханики свинга в гольфе, способствуя улучшению производительности и предотвращению травм.

Источники

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset задачи на AI:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: