تحسين التقاط الحركة بدون علامات لحركات الجولف والبيسبول باستخدام RTMPose و RTMDet: منهج من الأعلى للأسفل

تحسين التقاط الحركة بدون علامات لحركات الجولف والبيسبول باستخدام RTMPose و RTMDet: منهج من الأعلى للأسفل

الملخص

توثق هذه الورقة البيضاء تطبيق RTMPose و RTMDet لتقدير الموضع الدقيق والفعال لحركات الجولف والبيسبول. من خلال الاستفادة من تقنيات حديثة مُحسّنة للأداء في الوقت الفعلي، تُمكّن هذه النماذج من تتبع تفصيلي لحركات الجسم أثناء حركات الجولف والبيسبول—وهي ميزة حاسمة لتحسين الأداء في تحليلات الرياضة. نسلط الضوء على مزايا منهج من الأعلى للأسفل، حيث يحدد كاشف RTMDet الجاهز لاعب الجولف لاعب البيسبول في كل إطار، ويقدّر RTMPose مواضع المفاصل الرئيسية في الجسم.

1. المقدمة

أصبح تقدير الموضع محوريًا في تحليل أداء الرياضة، مما يسمح بتتبع دقيق لحركات الرياضيين. في الجولف والبيسبول، يوفر التقاط بيانات الميكانيكا الحيوية لحركة اللاعب رؤى قيّمة حول ديناميكيات الحركة، مما يساعد المحترفين والهواة على حد سواء في صقل تقنياتهم. غالبًا ما تواجه طرق تقدير الموضع ثنائية الأبعاد تقليدية تحديات في الكمون والدقة، خاصة في السيناريوهات الفعلية. تقترح هذه الورقة حلاً باستخدام RTMPose و RTMDet ضمن إطار عمل MMPose لتقدير موضع تفصيلي أثناء حركات الجولف والبيسبول.

2. الخلفية

يتطلب تعقيد حركات الجولف والبيسبول قياسًا دقيقًا لحركات الجسم. قد لا توفر طرق تقدير الموضع الموجودة الدقة اللازمة للأداء في الوقت الفعلي. أدخلت التطورات في التعلم العميق ورؤية الكمبيوتر نماذج مثل RTMPose و RTMDet، التي توفر دقة وكفاءة محسّنة.

3. منهج من الأعلى للأسفل مع RTMdet و RTMpose

–insert figure–

3. RTMPose: نموذج تقدير موضع عالي الأداء

تم تصميم RTMPose [1] لتقدير موضع عالي الأداء وفي الوقت الفعلي، مُحسّن للعمل بكفاءة على أجهزة ذات موارد محدودة.

الميزات الرئيسية:

معمارية النموذج والكفاءة: يستخدم RTMpose عمود الفقرات CSPNeXt [1، 2]، مما يحقق توازنًا بين السرعة والدقة. تم تحسين CSPNeXt لمهام التنبؤ الكثيفة مثل تقدير الموضع وكشف الكائنات، مما يوفر دقة وضوح عالية مع الحفاظ على الكفاءة الحسابية.

تنبؤ نقاط رئيسية: يستخدم خوارزمية قائمة على SimCC [1، 3]، حيث يتم التعامل مع المواضع الأفقية والرأسية للنقاط الرئيسية كمهام تصنيف منفصلة. هذا التمثيل المضغوط يقلل الحمل الحسابي ويناسب النشر على أجهزة مختلفة.

4. RTMDet: عمود الفقرات للكشف

يعمل RTMDet [4] كجهاز الكشف السابق لـ RTMPose في خط الأنابيب من الأعلى للأسفل، ويحدد موقع لاعب الجولف أو لاعب البيسبول داخل كل إطار.

الميزات الرئيسية:

معمارية النموذج والكفاءة: يستخدم RTMDet نسخة معدلة من CSPDarkNet [5] أكثر قابلية للتدريب ودقة من العديد من نماذج YOLO. تستفيد النسخة المعدلة من التفافات العمق الكبيرة الحجم لتحقيق التوازن بين التعقيد والسرعة وهي فعالة على كل من GPU و CPU. وهي مثالية للتطبيقات الفعلية مثل تتبع أداء الرياضة.

تعدد الاستخدامات: يتعامل مع مهام كشف كائنات مختلفة، بما في ذلك تقسيم الحالات والكشف عن الكائنات المدورة. يضمن تحديد موقع دقيق للاعب، حتى في المشاهد الديناميكية.

5. مزايا استخدام RTMDet و RTMPose في تحليل حركات الجولف والبيسبول

5.1 دقة أعلى في المشاهد غير المزدحمة

في إعدادات الجولف/البيسبول النموذجية مع عدد قليل من الأفراد في الإطار، يعزل RTMDet لاعب الجولف/البيسبول، مما يسمح لـ RTMPose بمعالجة كل شخص مكتشف بدقة عالية. يتجنب هذا تعقيد طرق من الأسفل للأعلى التي تعالج جميع النقاط الرئيسية لجميع الأشخاص في الإطار بشكل متزامن. يمكن لمنهج من الأعلى للأسفل أيضًا أن يتضمن خوارزمية معالجة لاحقة من RTMdet تحديد الشخص الصحيح (أي لاعب الجولف أو لاعب البيسبول) قبل تنفيذ تقدير الموضع. بالإضافة إلى ذلك، تم تدريب RTMPose مسبقًا على مواد صور ممتدة تحتوي على

5.2 الحساب الفعال والأداء في الوقت الفعلي

باستخدام نماذج خفيفة الوزن، مثل RTMdet و RTMpose، يتم الحفاظ على كمون منخفض، مما يتيح تحليل حركة في الوقت الفعلي على أجهزة المستهلك. هذا مفيد بشكل خاص لتوفير تعليقات مباشرة فورية أثناء جلسات التدريب أو التدريب. نظام SwingCatalyst للتقاط الحركة بدون علامات هو أحد الأنظمة الاستوديوهية القليلة التي توفر تعليقات التقاط الحركة المباشرة للاعبي الجولف والبيسبول.

5.3 تحليل نقاط رئيسية تفصيلي

يكتشف RTMPose مجموعة من 26 نقطة رئيسية في الجسم [6] معروضة في الشكل 1 أدناه ضرورية لتحليل حركيات حركات الجولف والبيسبول. Halpe26 هي مجموعة موسعة تتضمن علامات إضافية على القدمين والرأس مقارنة بمجموعة Coco الأكثر قياسية التي تحتوي على 17 علامة.

–Insert Figure–

6. المنهجية لالتقاط الحركة بدون علامات لحركات الجولف والبيسبول

6.1 مرحلة الكشف: RTMDet

عند تطبيقها على إطارات فيديو لاعب جولف أو لاعب بيسبول، يُنشئ RTMDet صناديق حدود حول اللاعب، والتي يتم تمريرها إلى RTMPose. هذا يركز تقدير الموضع على مناطق الصور ذات الصلة، مما يقلل الحمل الحسابي.

–Insert Image–

6.2 مرحلة تقدير الموضع: RTMPose

يقدّر RTMPose مواضع النقاط الرئيسية ضمن صندوق الحدود. المفاصل الحاسمة لتحليل حركات الجولف والبيسبول تشمل الأرساغ والأكواع والكتفان والوركان والركبتان. تقيّم هذه النقاط الرئيسية زوايا الجسم والمواضع خلال مراحل الحركة: الرجوع والرجة الهابطة والمتابعة.

–Insert Image–

6.3 المقاييس الأداء

يتم قياس الأداء العام لـ RTMPose باستخدام مقاييس مثل Average Precision (AP) على معايير تقدير الموضع مثل MS COCO. فيما يلي أداء أفضل النماذج المصنفة على معيار Coco الشائع الاستخدام. في مجموعة بيانات MS COCO val، يعتبر RTMPose-X النموذج الأفضل أداءً القادر على توفير تعليقات فعلية في الوقت الفعلي وحقق ما يصل إلى 75.8% AP مع معدلات إطارات تتجاوز ?? FPS على وحدات معالجة الرسومات من فئة المستهلك، مما يجعله مناسبًا لتحليل الرياضة عالي السرعة.

الترتيب النموذج دقة الوضوح الحجم/المعاملات (مليون) AP الاستدلال الفعلي

1 Sapiens-2B 1024x768 2000 82.2 لا

2 Sapiens-1B 1024x768 1000 82.1 لا

3 Sapiens-0.6B 1024x768 600 81.2 لا

4 Sapiens-0.3B 1024x768 300 79.6 لا

5 VitPose-H 256x192 632 79.4 لا

6 RTMPose-X 384x288 49 78.8 نعم

7 VitPose-L 256x192 307 78.6 لا

8 RTMPose-L 384x288 28 78.3 نعم

9 HRFormer 256x192 43 77.2 لا

10 HRNet-UDP 384x288 64 77.2 نعم

11 VitPose-B 256x192 86 77.0 نعم

12 RTMPose-L 256x198 28 76.7 نعم

13 RTMPose-M 384x288 14 76.6 نعم

14 HRNet 384x288 64 76.3 نعم

15 VitPose-S 256x192 43 75.8 نعم

16 RTMPose-M 256x192 14 74.9 نعم

17 SimpleBaseline 256x192 60 73.5 نعم

18 FastPose 256x192 79 73.3 نعم

7. التطبيق في تحليل حركة الجولف

من خلال تطبيق إطار عمل RTMPose-X و RTMDet-M:

تتبع حركات المفاصل إطاراً تلو الآخر: يوفر بيانات شاملة لتحليل كل مرحلة من مراحل الضربة.

تقديم ملاحظات فورية: يتيح الحصول على رؤى فورية حول وضعية الجسم وأداء الضربة أثناء جلسات التدريب.

المقارنة مع ميكانيكا مثالية: يسمح بالمقارنة مع الحركات الحركية المثالية لتحديد مجالات التحسين.

8. الخلاصة

يوفر دمج RTMPose-X و RTMDet-M حلاً قوياً لتحليل حركة الجولف في الوقت الفعلي. بفضل الدقة العالية والزمن الكامن المنخفض والتوافق مع منصات أجهزة متنوعة، يقدم هذا المنهج من الأعلى للأسفل رؤى مفصلة حول ميكانيكا الضربة. وله إمكانية كبيرة في مساعدة لاعبي الجولف الهواة والمحترفين على تحسين أدائهم.

9. الأعمال المستقبلية

قد تتضمن التطورات المستقبلية:

دمج خوارزميات التعلم الآلي: لتوفير تحليلات تنبؤية واقتراح تعديلات لتحسين كفاءة الضربة.

التوسع إلى سيناريوهات متعددة الأشخاص: تحسين التطبيق في الرياضات الجماعية أو بيئات التدريب الجماعي.

تطوير واجهة سهلة الاستخدام: إنشاء تطبيقات أو أدوات تجعل هذه التكنولوجيا في متناول المدربين والرياضيين بدون خبرة تقنية.

الملحق

المنهجية التفصيلية: منهج من الأعلى للأسفل لتقدير موضع حركة الجولف باستخدام RTMPose-X و RTMDet-M

نظرة عامة

تصف المنهجية المذكورة هنا الخطوات التفصيلية المتضمنة في المنهج من الأعلى للأسفل لتقدير الموضع في الوقت الفعلي لحركة الجولف والبيسبول، مستفيدة من نقاط قوة RTMPose لتحديد النقاط الرئيسية و RTMDet لكشف الكائنات. تُقسم العملية إلى عدة مراحل: الكشف وتحديد النقاط الرئيسية والمعالجة اللاحقة، كل منها يساهم في التقدير الدقيق والفعال لمفاصل الجسم في حركة الجولف للتحليل البيوميكانيكي.

–إدراج صورة–

1. مرحلة الكشف: التوطين في الوقت الفعلي مع RTMDet-M

تتضمن المرحلة الأولى من المنهج من الأعلى للأسفل كشف لاعب الجولف في كل إطار من الفيديو. في السيناريوهات الرياضية، خاصة الجولف، تتكون المشهد عادة من لاعب واحد، مما يبسط مهمة الكشف مقارنة بمشاهد الحشود.

1.1 معمارية النموذج

يتم استخدام RTMDet-M ككاشف كائنات في خط الأنابيب. يستخدم عمود الشبكة العصبية الملتفة (CNN)، وتحديداً عمود CSPNeXt، المصمم لتحسين أداء كشف الكائنات في الوقت الفعلي مع الحفاظ على التوازن بين السرعة والدقة. تشمل الجوانب الرئيسية للمعمارية:

الالتفافات العميقة كبيرة النواة: يتم استخدامها في طبقات العمود والرقبة، مما يزيد من حقل الاستقبال مع الحفاظ على تكلفة حسابية منخفضة.

شبكة هرم الميزات (FPN): تقنية استخراج ميزات متعددة المقاييس تسمح بكشف الكائنات بأحجام مختلفة، مما يضمن إمكانية كشف لاعب الجولف بغض النظر عن بعده عن الكاميرا.

1.2 إسناد التسميات الديناميكية

يستفيد RTMDet-M من استراتيجية إسناد تسميات ديناميكية تحسن دقة الكشف عن طريق إسناد تسميات ناعمة للكائنات بناءً على مزيج من خسارة التصنيف والتوطين. يتم التحكم في إسناد التسميات بواسطة خوارزمية SimOTA، التي تختار العينات الموجبة ديناميكياً بناءً على احتمالية تطابقها مع كائن الحقيقة الأساسية. تضمن هذه الطريقة كشفاً قوياً في ظروف الإضاءة والبيئة المختلفة التي غالباً ما تُصادف في مشاهد الجولف في الهواء الطلق.

1.3 تنبؤ صندوق الحدود

يُخرج الكاشف صناديق حدود تُحيط بلاعب الجولف في كل إطار. توفر هذه الصناديق قيودًا مكانية سيعمل نموذج تقدير الموضع ضمنها، مما يقلل الحمل الحسابي على مرحلة تقدير الموضع اللاحقة بالتركيز فقط على المناطق ذات الصلة من الإطار. في هذا السياق، يُنشئ RTMDet-M صناديق حدود في الوقت الفعلي بأكثر من 300 FPS على الأجهزة عالية الأداء، مما يضمن قدرته على مواكبة الديناميكيات السريعة لحركة ضربة الجولف.

1.4 قمع عدم أقصى تداخل للأشخاص (NMS)

في الإعدادات متعددة الأشخاص (على الرغم من罕رة حدوثها في تحليل حركة ضربة الجولف)، يدمج RTMDet-M خوارزمية قمع عدم أقصى تداخل للموضع (NMS) التي تزيل الكشف المكرر للنقاط الرئيسية، مما يضمن الاحتفاظ بأكثر الكشوفات ثقة فقط للجميع. يُعتبر هذا حاسمًا في الحالات التي قد يتم فيها الكشف عن صناديق حدود متداخلة في المشاهد المكتظة أو تسلسلات الفيديو.

1.5 Dataset التدريب والأداء

يتم تدريب RTMDet-M على مهمة تصنيف ثنائية على حالات الأشخاص في Dataset Object356.

2. مرحلة تقدير الموضع: تحديد موقع النقاط الرئيسية RTMPose-X

بمجرد تحديد صندوق الحدود للاعب الجولف، تتضمن المرحلة التالية تقدير الموقع الدقيق للمفاصل الرئيسية للجسم ضمن هذه المنطقة. يتم استخدام RTMPose-X، وهو نموذج تقدير موضع عالي الأداء، لهذا الغرض.

2.1 تحديد موقع النقاط الرئيسية القائم على SimCC

يستخدم RTMPose-X خوارزمية SimCC (تصنيف الإحداثيات البسيط)، التي تعامل تحديد موقع النقطة الرئيسية كمشكلة تصنيف. على عكس الطرق التقليدية القائمة على خريطة حرارية، يقسم SimCC إحداثيات x و y لكل نقطة رئيسية إلى صناديق ويصنف الصندوق الدقيق حيث تقع كل نقطة رئيسية. يقلل هذا النهج التعقيد الحسابي بشكل كبير ويحسن سرعة الاستدلال مع الحفاظ على دقة عالية لمهام تقدير موضع الإنسان.

2.2 العمود الفقري CSPNeXt

على غرار RTMDet-M، يستخدم RTMPose-X أيضًا العمود الفقري CSPNeXt، المُخصص لمهام التنبؤ الكثيفة مثل تقدير الموضع. يتمتع العمود الفقري CSPNeXt بمزايا في هذا السيناريو للأسباب التالية:

هندسة معمارية خفيفة الوزن: تم تصميم بنية النموذج لتقليل عدد المعاملات مع تعظيم الإنتاجية، مما يجعلها مثالية للتطبيقات الفعلية في الوقت الحقيقي.

استخراج الميزات الفعال: طبقات استخراج الميزات في CSPNeXt مُحسّنة لمعالجة الصور عالية الدقة، وهو أمر حاسم للكشف عن التفاصيل الدقيقة في أجزاء الجسم سريعة الحركة أثناء ضربة الجولف، مثل الأرساغ والأكواع والركب.

2.3 تمثيل النقاط الرئيسية

يُخرج RTMPose-X مواقع النقاط الرئيسية لجميع أجزاء الجسم ذات الصلة، بما في ذلك:

مفاصل الجسم العلوي: الكتفان والأكواع والأرساغ والرقبة

مفاصل الجزء السفلي من الجسم: الوركان والركبتان والكاحلان

مفاصل إضافية: الرأس والعمود الفقري ونقاط رئيسية أخرى ذات صلة بتحليل الحركة

تضمن دقة 384x288 للصور المدخلة الالتقاط الدقيق حتى للحركات الدقيقة في المفاصل، مع الحفاظ أيضًا على قدرة النظام على العمل في الوقت الفعلي.

2.4 معالجة RTMPose مسبقًا: معالجة البيانات غير المتحيزة (UDP)

قبل إدخال الصورة المقطوعة في نموذج RTMPose، يتم إجراء خطوة معالجة بيانات غير متحيزة (UDP). تعالج UDP التحيزات الحرجة في معالجة البيانات RTMPose أثناء التدريب والاختبار، خاصة في تحويلات نظام الإحداثيات وتنسيق النقاط الرئيسية. في خطوط الأنابيب التقليدية لتقدير موضع الإنسان، غالبًا ما تتسبب العمليات القياسية مثل التقليب وتغيير الحجم في عدم محاذاة المخرجات، خاصة بسبب التحويلات القائمة على البكسل، مما يؤدي إلى فقدان الدقة وعدم محاذاة الصور المقلوبة. يصحح UDP هذه المشاكل بإنشاء تحويل نظام إحداثيات غير متحيز، مما يحافظ على المحاذاة الدلالية عبر فراغات الإحداثيات المختلفة أثناء العمليات الأساسية (القص وتغيير الحجم والتدوير والتقليب). يقدم UDP أيضًا تحويل تنسيق النقاط الرئيسية غير المتحيز من خلال ترميز النقاط الرئيسية في خرائط حرارية دون إدخال انحياز موضعي، يتم تحسينه بشكل أكبر من خلال عملية فك تشفير متوعية التوزيع الغاوسي. يحسّن نهج معالجة البيانات هذا أداء النموذج بشكل منهجي، كما هو موضح في اختبارات مكثفة على مجموعات بيانات COCO و CrowdPose، حيث حقق دقة محسّنة وانخفاض زمن الاستدلال عبر نماذج من الأعلى للأسفل والقاع للأعلى [Ref].

3. المعالجة اللاحقة وتحسين الموضع

بمجرد التنبؤ بالنقاط الرئيسية، يتم تطبيق عدة خطوات معالجة لاحقة لتحسين تقدير الموضع وضمان الاستقرار عبر الإطارات.

3.1 تحسين الموضع

تتضمن ضربات الجولف حركة سريعة، والتي قد تُدخل ضوضاء أو تقلبات في مواقع النقاط الرئيسية المقدرة عبر الإطارات. للتخفيف من هذا، يتم تطبيق مرشح One-Euro لتحسين مسارات النقاط الرئيسية عبر الزمن، مما يضمن القضاء على التقلبات الصغيرة غير الفيزيائية في تنبؤات النقاط الرئيسية. يعمل مرشح One-Euro بموجب تعديل عرض النطاق الترددي للمرشح ديناميكيًا بناءً على سرعة الحركة، وهو مثالي للسيناريوهات مثل ضربات الجولف، حيث تختلف الحركة بشكل كبير في السرعة عبر المراحل المختلفة (الرجوع والرجة الهابطة والمتابعة).

3.2 آلية تخطي الإطار

لمزيد من التحسين، يتم تطبيق آلية تخطي الإطار، حيث يتم إجراء الكشف على الإطارات الرئيسية فقط، ويتم استيفاء تقدير الموضع للإطارات الوسيطة. يقلل هذا الحمل الحسابي بشكل كبير دون التضحية بالدقة في السيناريوهات التي تتمتع بحركة محدودة بين الإطارات، مثل تحليل الحركة البطيئة لضربة الجولف.

4. التتبع الزمني والاتساق في التسلسل

بالنظر إلى أن ضربات الجولف متسلسلة بطبيعتها، فإن الحفاظ على الاتساق الزمني في تقدير الموضع أمر حيوي. يعالج RTMPose-X هذا من خلال تقنيات التتبع الزمني، التي تضمن اتساق التنبؤات بالنقاط الرئيسية عبر الإطارات المتتالية. يتضمن هذا تتبع مواقع النقاط الرئيسية عبر الزمن وضمان اتباع مساراتها أنماطًا حركية واقعية بناءً على القيود الحيوية الميكانيكية.

4.1 تحليل السرعة والتسارع للنقاط الرئيسية

بالإضافة إلى تتبع مواقع النقاط الرئيسية، يقدّر RTMPose-X أيضًا السرعة والتسارع لكل نقطة رئيسية. تُعتبر هذه المعلومات حرجة لتحليل ديناميكيات ضربة الجولف، مما يوفر رؤى حول مقاييس الأداء الرئيسية مثل:

سرعة الضربة: محسوبة بناءً على سرعة الرسغ أثناء الرجة الهابطة.

دوران الورك: محلل من خلال السرعة الدورانية لمفاصل الورك.

مسار النادي وسرعة رأس النادي: مستدل عليها بشكل غير مباشر من مسارات الرسغ والكوع.

يمكن مقارنة هذه المقاييس ببيانات احترافية لتقديم تعليقات حول ميكانيكا حركة اللاعب.

5. الاستدلال والأداء الفعلي في الوقت الحقيقي

تم تحسين خط الأنابيب من الأعلى للأسفل بالكامل للأداء الفعلي في الوقت الحقيقي، مما يسمح بتقدير الموضع بأكثر من 90 FPS على وحدات GPU الحديثة. يضمن استخدام بنى نماذج فعالة جدًا (CSPNeXt) وتقنيات استدلال سريعة (SimCC) أن النظام يمكنه التعامل مع مدخلات فيديو بمعدل إطارات عالي، مما يجعله مناسبًا للتعليقات الفعلية أثناء جلسات التدريب.

6. التقييم والتحقق من الصحة

يتم تقييم نماذج RTMPose-X و RTMDet-M على مجموعات بيانات معيارية مثل COCO و MPII، مما يُظهر أداءً قويًا بدقة متوسطة (AP) بنسبة 75.8% على مجموعة بيانات COCO لنقاط الجسم الرئيسية. يتم التحقق من هذه النتائج مقابل التعليقات الأرضية في مجموعات بيانات ضربة الجولف، مما يضمن قوة النموذج في التقاط حركات الرياضات الديناميكية.

6.1 المقاييس الأداء

متوسط الخطأ التربيعي (MSE): يُستخدم لقياس دقة تنبؤات نقاط رئيسية مقابل التعليقات التوضيحية الأساسية.

متوسط الدقة (AP): يقيّم الأداء الإجمالي لنموذج تقدير الموضع.

وقت معالجة الإطار: تم معايرته للتأكد من استيفاء النظام متطلبات التشغيل الفوري (<10 مللي ثانية لكل إطار).

7. الخاتمة

يوفر منهج من الأعلى للأسفل باستخدام RTMPose-X و RTMDet-M طريقة فعالة وموثوقة لتقدير الموضع في الوقت الفعلي في تحليلات الرياضة، خاصة لتحليل حركة الجولف. مع الكشف القوي عن نقاط رئيسية والتتبع الزمني والاستدلال في الوقت الفعلي، توفر هذه المنهجية رؤى حركية حيوية تفصيلية في ديناميكا حركة الجولف، مما يساعد في تحسين الأداء والوقاية من الإصابات.

المراجع

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset تحدي الذكاء الاصطناعي:

[] Dataset MS Coco:

[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324

[] Dataset MPII:

[] Dataset sub-JHMBD: