Подобряване на Безмаркерна система за фиксиране на движение при размах в голф и бейзбол с RTMPose и RTMDet: Подход От Горе Надолу
Подобряване на Безмаркерна система за фиксиране на движение при размах в голф и бейзбол с RTMPose и RTMDet: Подход От Горе Надолу
Резюме
Този технически документ описва приложението на RTMPose и RTMDet за точна и ефективна Оценка на позата при размаха в голф и бейзбол. Използвайки най-съвременни техники, оптимизирани за работа в реално време, тези модели позволяват детайлно проследяване на движенията на тялото по време на размаха в голф и бейзбол — критична функция за подобряване на представянето в спортната аналитика. Подчертаваме предимствата на подхода От Горе Надолу, при който самостоятелния детектор RTMDet идентифицира голфиста и бейзболиста във всеки Кадър, а RTMPose оценява позициите на ключевите Стави на тялото.
1. Въведение
Оценката на позата е станала ключева при анализа на представянето в спортa, позволявайки точното проследяване на движенията на спортистите. В голф и бейзбол, заснемането на биомеханичните данни на размаха на играча дава ценни прозрения относно динамиката на размаха, помагайки на професионалци и аматьори да усъвършенстват техниките си. Традиционните методи за 2D Оценка на позата често имат проблеми със закъснението и точността, особено в сценарии в реално време. Тази публикация предлага решение с RTMPose и RTMDet в рамките на mmpose Framework за детайлна Оценка на позата по време на размаха в голф и бейзбол.
2. Предистория
Сложността на размахите в голф и бейзбол изисква точно измерване на движенията на тялото. Съществуващите методи за Оценка на позата може да не осигурят необходимата точност за представяне в реално време. Напредъкът в дълбокото обучение и компютърното зрение въведе модели като RTMPose и RTMDet, които предлагат подобрена точност и ефективност.
3. Подход От Горе Надолу с RTMdet и RTMpose
–insert figure–
3. RTMPose: Висока производителност Модел за Оценка на позата
RTMPose [1] е проектиран за висока производителност, Оценка на позата в реално време, оптимизирана за работа на ограничено оборудване.
Ключови Характеристики:
Архитектура на модела и ефективност: RTMpose използва CSPNeXt като своя гръбнак [1, 2], балансирайки скорост и точност. CSPNeXt е оптимизиран за задачи на плътното предвиждане като Оценка на позата и Детектиране на обекти, осигурявайки висока разделителна способност и точност, като същевременно поддържа изчислителна ефективност.
Предвиждане на ключеви точки: Използва алгоритъм, базиран на SimCC [1, 3], третирайки хоризонталните и вертикалните позиции на ключевите точки като отделни задачи за класификация. Това компактно представяне намалява изчислителния товар и е подходящо за разгръщане на различни устройства.
4. RTMDet: Гръбнакът на детекцията
RTMDet [4] действа като детектор предхождащ RTMPose в тръбопровода От Горе Надолу, идентифицирайки местоположението на голфиста или бейзболиста във всеки Кадър.
Ключови Характеристики:
Архитектура на модела и ефективност: RTMDet използва модифицирана версия на CSPDarkNet [5], която е по-обучаема и точна от много YOLO модели. Модифицираната версия използва дълбочински дълбочински конволюции за балансиране на сложността и скоростта и е ефективна както на GPU, така и на CPU. Той е идеален за приложения в реално време, като проследяване на спортното представяне.
Универсалност: Справя се с различни задачи за Детектиране на обекти, включително Сегментация на инстанции и завъртана Детектиране на обекти. Осигурява точна локализация на играча, дори в динамични сцени.
5. Предимства на използването на RTMDet и RTMPose при анализ на размаха в голф и бейзбол
5.1 По-висока точност в сцени без тълпа
В типични настройки за голф/бейзбол с малко индивиди в Кадъра, RTMDet изолира голфиста/бейзболиста, позволявайки на RTMPose да обработи всеки открит човек с висока точност. Това избягва сложността на методите отдолу нагоре, които обработват всички Ключеви точки за всички лица в Кадъра, едновременно. Подходът От Горе Надолу може също да включи постобработка алгоритъм на RTMdet, който идентифицира правилния човек (т.е. голфист или бейзболист), преди да извърши Оценка на позата. Освен това RTMPose е предварително обучен върху разширен изходящ материал, съдържащ
5.2 Ефективно изчисление и представяне в реално време
Използването на лекомерни модели, като RTMdet и RTMpose, поддържа ниско закъснение, което позволява анализ на размаха в реално време на потребителско оборудване. Това е особено полезно за предоставяне на незабавна обратна връзка в реално време по време на тренировка или тренировки. Системата за безмаркерна Фиксиране на движение Swing Catalyst е една от малкото студийни системи, които осигуряват обратна връзка на живо за фиксиране на движение на голфистите и бейзболистите.
5.3 Детайлен анализ на ключевите точки
RTMPose открива набор от 26 Ключеви точки на тялото [6], показани на фигура 1 по-долу, необходими за анализ на кинематиката на размаха в голф и бейзбол. Halpe26 е разширен набор, който включва допълнителни маркери на краката и главата в сравнение с по-стандартния Coco набор с 17 маркера.
–Insert Figure–
6. Методология за безмаркерна Фиксиране на движение при размах в голф и бейзбол
6.1 Фаза на детекцията: RTMDet
Приложен върху видео Кадри на голфист или бейзболист, RTMDet генерира Ограничаващо поле около играча, което се предава на RTMPose. Това фокусира Оценката на позата на съответни регионите на изображението, намалявайки изчислителния товар.
–Insert Image–
6.2 Фаза на Оценка на позата: RTMPose
RTMPose оценява позициите на ключевите точки в Ограничаващо поле. Критичните Стави за анализ на размаха в голф и бейзбол включват китки, лакти, рамене, Тазобедрени стави и колена. Тези Ключеви точки оценяват ъглите и позициите на тялото по време на Фази на размаха: Обратна люлка, Надолу Свинг и Следване.
–Insert Image–
6.3 Метрики за представяне
Общото представяне на RTMPose се измерва с помощта на метрики като Average Precision (AP) на еталони за Оценка на позата като MS COCO. По-долу е представянето на моделите с най-висок ранг на обикновено използвания Coco еталон. На набора от данни MS COCO val, RTMPose-X е най-ефективният модел, способен да осигури обратна връзка в реално време и постига до 75.8% AP с честота на Кадри превишаващи ?? FPS на потребителски GPU, което го прави подходящ за анализ на спортове с висока скорост.
Ранг Модел Разделителна способност Размер/параметри (Mill) AP Основен тип умозаключение
1 Sapiens-2B 1024x768 2000 82.2 Не
2 Sapiens-1B 1024x768 1000 82.1 Не
3 Sapiens-0.6B 1024x768 600 81.2 Не
4 Sapiens-0.3B 1024x768 300 79.6 Не
5 VitPose-H 256x192 632 79.4 Не
6 RTMPose-X 384x288 49 78.8 Да
7 VitPose-L 256x192 307 78.6 Не
8 RTMPose-L 384x288 28 78.3 Да
9 HRFormer 256x192 43 77.2 Не
10 HRNet-UDP 384x288 64 77.2 Да
11 VitPose-B 256x192 86 77.0 Да
12 RTMPose-L 256x198 28 76.7 Да
13 RTMPose-M 384x288 14 76.6 Да
14 HRNet 384x288 64 76.3 Да
15 VitPose-S 256x192 43 75.8 Да
16 RTMPose-M 256x192 14 74.9 Да
17 SimpleBaseline 256x192 60 73.5 Да
18 FastPose 256x192 79 73.3 Да
7. Приложение при анализ на замаха в голф
Чрез прилагане на рамката RTMPose-X и RTMDet-M:
Проследяване на движението на ставите кадър по кадър: Осигурява всеобхватни данни за анализ на всяка фаза на замаха.
Предоставяне на обратна връзка в реално време: Позволява незабавни прозрения за позата и формата на замаха по време на тренировките.
Сравняване с идеална механика: Позволява сравнението с идеална Кинематична механика на замаха, за да се идентифицират области за подобрение.
8. Заключение
Интеграцията на RTMPose-X и RTMDet-M предлага мощно решение за анализ на замаха в голф в реално време. С висока точност, ниска латентност и съвместимост с различни хардуерни платформи, този подход От Горе Надолу предоставя детайлни прозрения за механиката на замаха. Има значителен потенциал да помогне както на любителски, така и на професионални голфисти при подобряването на техния Представяне.
9. Бъдеща работа
Бъдещите разработки могат да включват:
Интегриране на алгоритми за машинното обучение: За предоставяне на предиктивна аналитика и предложения за корекции на ефективността на замаха.
Разширяване към сценарии с множество лица: Подобряване на приложимостта в тимни спортове или групови тренировки.
Разработване на удобен потребителски интерфейс: Създаване на приложения или инструменти, които правят технологията достъпна за треньори и спортисти без технически експертиза.
Приложение
Подробна методология: Подход От Горе Надолу за оценка на позата при замаха в голф с помощта на RTMPose-X и RTMDet-M
Преглед
Описаната тук методология очертава подробните стъпки, включени в подход От Горе Надолу за оценка на позата в реално време на замаха в голф и бейзбол, използвайки силата на RTMPose за локализирането на Ключеви точки и RTMDet за детектиране на обекти. Процесът е разделен на няколко етапа: детектиране, локализирането на Ключеви точки и Постобработка, всеки от които допринася за точната и ефективна оценка на телесните Стави при замаха в голф за биомеханичен анализ.
–Вмъкване на фигура–
1. Фаза на детектиране: Локализация в реално време с RTMDet-M
Първият етап на подхода От Горе Надолу включва детектиране на Голфиста в рамките на всеки кадър на видеото. В спортни сценарии, особено в голф, сценето обикновено се състои от един играч, което опростява задачата на детектирането в сравнение със сценарии с тълпи.
1.1 Архитектура на модела
RTMDet-M се използва като детектор на обекти в тръбопровода. Той използва гръбнак на конволюционна невронна мрежа (CNN), специално основата CSPNeXt, проектирана да оптимизира представянето на детектиране на обекти в реално време, като същевременно запазва баланс между скорост и точност. Ключовите аспекти на архитектурата включват:
Конволюции с голяма дълбочина: Те се използват в слоевете на гръбнака и врата, увеличавайки рецептивното поле, като същевременно поддържат ниски изчислителни разходи.
Мрежа на пирамидата на характеристики (FPN): Техника за извличане на характеристики с много скали, която позволява детектиране на обекти в различни мащаби, осигурявайки, че Голфистът може да бъде открит независимо от разстоянието им от камерата.
1.2 Динамично присвояване на етикети
RTMDet-M използва динамична стратегия за присвояване на етикети, която подобрява точността на детектирането чрез присвояване на меки етикети на обекти въз основа на комбинация от класификация и локализационна загуба. Присвояването на етикети се управлява от алгоритъма SimOTA, който динамично избира положителни проби въз основа на вероятността им да съвпадат с обекта от основната истина. Този метод осигурява надеждно детектиране при различни условия на осветление и окружаща среда, често срещани при открити сцени в голф.
1.3 Прогнозиране на ограничаващо поле
Детекторът издава ограничаващи полета, които затварят голфиста в всеки кадър. Тези ограничаващи полета осигуряват пространствени ограничения, в рамките на които моделът за оценка на позата ще функционира, намалявайки изчислителния товар на последващата фаза на оценка на позата чрез фокусиране само върху съответните области на кадъра. В този контекст RTMDet-M генерира ограничаващи полета в реално време с над 300 FPS на висока производителност хардуер, осигурявайки, че той може да се справи с бързата динамика на замаха на голф.
1.4 НеMaximalna Подтискане на Персона (NMS)
В многоличкови настройки (макар и редки при анализ на замаха на голф), RTMDet-M включва алгоритъм за неMaximalna Подтискане на поза (NMS), който елиминира излишните детекции на ключеви точки, осигурявайки, че само най-уверените детекции се запазват за всеки един. Това е критично в случаите, когато припокриващи се ограничаващи полета могат да бъдат открити в претъпкани сцени или видеополедователности.
1.5 Dataset за обучение и производителност
RTMDet-M е обучен на задача за двоична класификация на персоналните инстанции в Dataset Object356.
2. Фаза на оценка на позата: Локализация на ключеви точки RTMPose-X
След като ограничаващото поле за голфиста е установено, следващата фаза включва оценка на точното място на ключовите стави на тялото в този район. RTMPose-X, модел за оценка на поза с висока производителност, се използва за тази цел.
2.1 Локализация на ключеви точки на базата на SimCC
RTMPose-X използва алгоритъма SimCC (Simple Coordinate Classification), който третира локализацията на ключеви точки като проблем при класификация. За разлика от традиционните методи на базата на топлинни карти, SimCC разделя x и y координатите на всяка ключева точка в кошове и класифицира точния кош, където лежи всяка ключева точка. Този подход значително намалява изчислителната сложност и подобрява скоростта на заключението, като същевременно запазва висока точност за задачи на оценка на човешката поза.
2.2 Гръбнак CSPNeXt
Подобно на RTMDet-M, RTMPose-X също използва гръбнак CSPNeXt, който е приспособен за задачи с плътна прогноза, като оценка на позата. Гръбнакът CSPNeXt е предимствен в този сценарий по следните причини:
Лека архитектура: Архитектурата на модела е проектирана да минимизира броя на параметрите, докато максимизира пропускателната способност, което я прави идеална за приложения в реално време.
Ефективно извличане на характеристики: Слоевете за извличане на характеристики на CSPNeXt са оптимизирани за обработка на изображения с висока разделителна способност, което е от решаващо значение за откриване на малки детайли в бързо движещи се части на тялото по време на замах на голф, като китки, лакти и колена.
2.3 Представяне на ключеви точки
RTMPose-X издава локации на ключеви точки за всички съответни части на тялото, включително:
Стави на горната част на тялото: рамене, лакти, китки и врат
Стави на долната част на тялото: тазобедрени, колена и глезени
Допълнителни стави: глава, гръбнак и други ключови точки, съответни за анализ на замаха
Разделителната способност 384x288 за входните изображения осигурява, че дори тънки движения в ставите могат да бъдат уловени точно, като същевременно се запазва способността на системата да работи в реално време.
2.4 Предварителна обработка RTMPose: Безпристрастна обработка на данни (UDP)
Преди кадрираното изображение да бъде въведено в модела RTMpose, се извършва стъпка за безпристрастна обработка на данни (UDP). UDP адресира критичните пристрастия при обработка на данни на RTMpose по време на обучение и тестване, специално при трансформациите на координатната система и формата на ключевите точки. В конвенционалните тръбопроводи за оценка на човешката поза, стандартни операции като преворот и преоразмеряване често неправилно подравняват резултатите, особено поради пиксел-базираните трансформации, които водят до загуба на прецизност и неподравняване на преворнатите изображения. UDP коригира това, като установява безпристрастна трансформация на координатната система, запазвайки семантичното подравняване в различни координатни пространства при съществени операции (кадриране, преоразмеряване, завъртане, преворт). UDP също въвежда безпристрастна трансформация на формата на ключевите точки чрез кодиране на ключевите точки в топлинни карти без въвеждане на позиционна пристрастност, допълнително прецизирано чрез процес на декодиране с разпределение по Гаус. Този подход при обработка на данни систематично подобрява производителността на модела, както е показано в обширни тестове на Dataset COCO и CrowdPose, където достигна подобрена точност и намалена латентност на заключението в моделите отгоре надолу и отдолу нагоре [Ref].
3. Постобработка и прецизиране на позата
След като ключевите точки са прогнозирани, се прилагат няколко стъпки на постобработка за прецизиране на оценката на позата и осигуряване на стабилност в кадрите.
3.1 Изглаждане на позата
Замахите на голф включват бързо движение, което може да въведе шум или колебания в прогнозираните позиции на ключевите точки в кадрите. За смекчаване на това, филтър One-Euro се прилага за изглаждане на траекториите на ключевите точки във времето, осигурявайки, че малки, нефизични колебания в прогнозите на ключевите точки се елиминират. Филтърът One-Euro функционира чрез динамично регулиране на честотната лента на филтъра въз основа на скоростта на движението, което е идеално за сценарии, като замахи на голф, където движението варира значително в скорост в различните фази (обратна люлка, надолу свинг и следване).
3.2 Механизъм за пропускане на кадъра
За допълнителна оптимизация, е реализиран механизъм за пропускане на кадъра, където детектирането се извършва само на ключови кадри, а оценката на позата се интерполира за междинни кадри. Това значително намалява изчислителния товар, без да жертвува точност в сценарии с ограничено движение между кадрите, както е случаят със анализ в забавена скорост на замаха на голф.
4. Временно проследяване и последователност на последователност
Като се имат предвид, че замахите на голф са по своята същност последователни, поддържането на временна последователност при оценка на позата е жизненоважно. RTMPose-X адресира това чрез техники за временно проследяване, които осигуряват, че прогнозите на ключевите точки са последователни в последователните кадри. Това включва проследяване на позициите на ключевите точки във времето и осигуряване, че техните траектории следват реалистични модели на движение на базата на биомеханични ограничения.
4.1 Анализ на скоростта и ускорението на ключевите точки
В допълнение към проследяването на позициите на ключевите точки, RTMPose-X също оценява скоростта и ускорението на всяка ключева точка. Тази информация е критична за анализирането на динамиката на замаха на голф, осигурявайки представа за ключови показатели за производителност, както следва:
Скорост на удар: Изчислена на базата на скорост на китката по време на надолу свинг.
Ротация на тазобедрената става: Анализирана чрез ротационна скорост на тазобедрените стави.
Траектория на клуба и скорост на глава: Преки вървени чрез траектории на китка и лакът.
Тези показатели могат да бъдат сравнени със професионални еталони, за да се предостави обратна връзка относно механиката на замаха на играча.
5. Заключение и производителност в реално време
Целият тръбопровод отгоре надолу е оптимизиран за производителност в реално време, позволявайки оценка на позата с над 90 FPS на модерни GPU. Използването на висока ефективни архитектури на модели (CSPNeXt) и бързи техники на заключение (SimCC) осигурява, че системата може да обработи видеовход с висока честота на кадрите, което я прави подходяща за обратна връзка в реално време по време на тренировки.
6. Оценка и валидиране
Моделите RTMPose-X и RTMDet-M се оценяват на стандартни Dataset като COCO и MPII, показвайки силна производителност със средна прецизност (AP) от 75.8% на Dataset COCO за ключеви точки на тялото. Тези резултати се валидират спрямо основни истинни бележки в Dataset със замахи на голф, осигурявайки солидност на модела при улавяне на динамични спортни движения.
6.1 Метрики за представяне
Mean Squared Error (MSE): Използва се за количествено определяне на точността на прогнозите за ключеви точки в сравнение с базовите анотации.
Average Precision (AP): Оценява общото представяне на модела за оценка на позата.
Време за обработка на кадър: Тестван, за да се гарантира, че системата отговаря на изискванията за реално време (<10 ms на кадър).
7. Заключение
Подходът От Горе Надолу с използване на RTMPose-X и RTMDet-M осигурява ефикасен и точен метод за оценка на позата в реално време в спортния анализ, специално за анализ на гълф замаха. С мощно детектиране на ключеви точки, временно проследяване и извод в реално време, тази методология предоставя подробни биомеханични прозрения в динамиката на гълф замаха, помагайки при подобряване на представянето и предотвратяване на наранявания.
Препратки
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] AI challenge dataset:
[] MS Coco dataset:
[7] Crowdpose dataset: https://arxiv.org/pdf/1812.00324
[] MPII dataset:
[] sub-JHMBD dataset:
[] Halpe dataset:
[] PoseTrack18 dataset:
Object365 database: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Последно актуализирано: 2025-03-05 | Преглед на официалния сайт за поддръжка