การเพิ่มประสิทธิภาพการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์สำหรับสวิงกอล์ฟและเบสบอลโดยใช้ RTMPose และ RTMDet: วิธีการจากบนลงล่าง

บทสรุป

เอกสารชุดนี้บันทึกการประยุกต์ใช้ RTMPose และ RTMDet เพื่อการประมาณค่าท่าทางที่แม่นยำและมีประสิทธิภาพในการวิเคราะห์สวิงกอล์ฟและเบสบอล โดยใช้เทคนิคที่ทันสมัยที่สุดซึ่งปรับให้เหมาะสำหรับประสิทธิภาพแบบเรียลไทม์ แบบจำลองเหล่านี้ช่วยให้สามารถติดตามรายละเอียดการเคลื่อนไหวของร่างกายในระหว่างสวิงกอล์ฟและเบสบอล ซึ่งเป็นฟีเจอร์ที่มีความสำคัญอย่างยิ่งสำหรับการปรับปรุงประสิทธิภาพในการวิเคราะห์กีฬา เราเน้นถึงข้อดีของวิธีการจากบนลงล่าง โดยที่ตัวตรวจจับ RTMDet ที่มีอยู่แล้วจะระบุตำแหน่งของนักกอล์ฟและผู้เล่นเบสบอลในแต่ละเฟรม และ RTMPose ประมาณค่าตำแหน่งของจุดสำคัญของร่างกาย

1. บทนำ

การประมาณค่าท่าทางได้กลายเป็นหัวใจสำคัญในการวิเคราะห์ประสิทธิภาพกีฬา ซึ่งช่วยให้สามารถติดตามการเคลื่อนไหวของนักกีฬาได้อย่างแม่นยำ ในกอล์ฟและเบสบอล การจับภาพข้อมูลเชิงชีววิทยาของสวิงของผู้เล่นจะให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับไดนามิกการแกว่ง ซึ่งช่วยให้มืออาชีพและสมัครเล่นปรับปรุงเทคนิคของตนเอง วิธีการประมาณค่าท่าทาง 2D แบบดั้งเดิมมักเผชิญกับความท้าทายด้านเวลาแฝงและความแม่นยำ โดยเฉพาะอย่างยิ่งในสถานการณ์แบบเรียลไทม์ บทความนี้เสนอแนวทางแก้ไขโดยใช้ RTMPose และ RTMDet ภายในเฟรมเวิร์ก mmpose Framework เพื่อการประมาณค่าท่าทางโดยละเอียดในระหว่างสวิงกอล์ฟและเบสบอล

2. พื้นฐาน

ความซับซ้อนของสวิงกอล์ฟและเบสบอลต้องการการวัดการเคลื่อนไหวของร่างกายที่แม่นยำ วิธีการประมาณค่าท่าทางที่มีอยู่อาจไม่ให้ความแม่นยำที่จำเป็นสำหรับประสิทธิภาพแบบเรียลไทม์ ความก้าวหน้าในการเรียนรู้เชิงลึกและการมองเห็นด้วยคอมพิวเตอร์ได้นำเสนอแบบจำลองเช่น RTMPose และ RTMDet ซึ่งมีความแม่นยำและประสิทธิภาพที่ดีขึ้น

3. วิธีการจากบนลงล่างกับ RTMdet และ RTMpose

–แทรกรูปภาพ–

3. RTMPose: แบบจำลองการประมาณค่าท่าทางที่มีประสิทธิภาพสูง

RTMPose [1] ออกแบบมาเพื่อการประมาณค่าท่าทางแบบเรียลไทม์ที่มีประสิทธิภาพสูง ปรับให้เหมาะสำหรับการทำงานอย่างมีประสิทธิภาพบนฮาร์ดแวร์ที่มีจำกัด

ฟีเจอร์หลัก:

สถาปัตยกรรมแบบจำลองและประสิทธิภาพ: RTMpose ใช้ CSPNeXt เป็น Backbone [1, 2] ซึ่งสมดุลระหว่างความเร็วและความแม่นยำ CSPNeXt ปรับให้เหมาะสำหรับงานการทำนายแบบหนาแน่นเช่นการประมาณค่าท่าทางและการตรวจจับวัตถุ ทำให้มีความละเอียดสูงและความแม่นยำในขณะที่รักษาประสิทธิภาพการคำนวณ

การทำนายจุดสำคัญ: ใช้อัลกอริทึมตามที่ SimCC [1, 3] โดยถือว่าตำแหน่งแนวนอนและแนวตั้งของจุดสำคัญเป็นงานการจำแนกประเภทแยกต่างหาก การแสดงแบบนี้ลดการใช้ทรัพยากรการคำนวณและเหมาะสำหรับการนำไปใช้งานบนอุปกรณ์ต่างๆ

4. RTMDet: Backbone ของการตรวจจับ

RTMDet [4] ทำหน้าที่เป็นตัวตรวจจับที่อยู่ก่อน RTMPose ในไปไลน์จากบนลงล่าง โดยระบุตำแหน่งของนักกอล์ฟหรือผู้เล่นเบสบอลภายในแต่ละเฟรม

ฟีเจอร์หลัก:

สถาปัตยกรรมแบบจำลองและประสิทธิภาพ: RTMDet ใช้เวอร์ชันที่ดัดแปลงของ CSPDarkNet [5] ซึ่งให้ผลการฝึกอบรมและมีความแม่นยำมากกว่าแบบจำลอง YOLO หลายรุ่น เวอร์ชันที่ดัดแปลงนี้ใช้ประโยชน์จากการม้วนรวมแบบลึกขนาดใหญ่เพื่อสมดุลระหว่างความซับซ้อนและความเร็ว และมีประสิทธิภาพสูงทั้งใน GPU และ CPU ทำให้เหมาะสำหรับแอปพลิเคชันแบบเรียลไทม์เช่นการติดตามประสิทธิภาพกีฬา

ความเก่งกาจ: จัดการงานการตรวจจับวัตถุที่หลากหลาย รวมถึงการแบ่งส่วนอินสแตนซ์และการตรวจจับวัตถุแบบหมุน ช่วยให้มีการระบุตำแหน่งผู้เล่นที่แม่นยำ แม้ในฉากที่มีการเปลี่ยนแปลงอยู่

5. ข้อดีของการใช้ RTMDet และ RTMPose ในการวิเคราะห์สวิงกอล์ฟและเบสบอล

5.1 ความแม่นยำที่สูงขึ้นในฉากที่ไม่มีความหนาแน่น

ในสถานการณ์กอล์ฟ/เบสบอลทั่วไปที่มีบุคคลน้อยในเฟรม RTMDet จะแยกนักกอล์ฟ/ผู้เล่นเบสบอล ทำให้ RTMPose สามารถประมวลผลแต่ละบุคคลที่ตรวจจับได้ด้วยความแม่นยำสูง วิธีนี้ช่วยหลีกเลี่ยงความซับซ้อนของวิธีการจากล่างขึ้นบนที่ประมวลผลจุดสำคัญทั้งหมดสำหรับบุคคลทั้งหมดในเฟรมพร้อมกัน นอกจากนี้ วิธีการจากบนลงล่างยังสามารถรวมอัลกอริทึมการประมวลผลภายหลังของ RTMdet เพื่อระบุบุคคลที่ถูกต้อง (เช่น นักกอล์ฟหรือผู้เล่นเบสบอล) ก่อนทำการประมาณค่าท่าทาง นอกจากนี้ RTMPose ได้รับการฝึกอบรมล่วงหน้าบนวัสดุภาพที่ขยายออกมา

5.2 การคำนวณที่มีประสิทธิภาพและประสิทธิภาพแบบเรียลไทม์

การใช้แบบจำลองที่เบา เช่น RTMdet และ RTMpose รักษาเวลาแฝงต่ำ ช่วยให้การวิเคราะห์สวิงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค สิ่งนี้มีประโยชน์อย่างยิ่งต่อการให้ข้อเสนอแนะแบบสดใจในระหว่างการฝึกโค้ชหรือการฝึกซ้อม ระบบการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์ของ Swing Catalyst เป็นระบบสตูดิโอไม่กี่แห่งที่ให้ข้อเสนอแนะการจับภาพเคลื่อนไหวแบบสดใจแก่นักกอล์ฟและผู้เล่นเบสบอล

5.3 การวิเคราะห์จุดสำคัญโดยละเอียด

RTMPose ตรวจจับการตั้งค่าจุดสำคัญของร่างกาย 26 จุด [6] แสดงในรูปที่ 1 ด้านล่าง ซึ่งจำเป็นสำหรับการวิเคราะห์จลนศาสตร์สวิงกอล์ฟและเบสบอล Halpe26 เป็นการตั้งค่าที่ขยายออกมาซึ่งรวมถึงเครื่องหมายเพิ่มเติมบนเท้าและหัวเมื่อเทียบกับการตั้งค่า Coco มาตรฐานที่มี 17 เครื่องหมาย

–แทรกรูปภาพ–

6. วิธีการสำหรับการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์สวิงกอล์ฟและเบสบอล

6.1 เฟสการตรวจจับ: RTMDet

เมื่อประยุกต์ใช้กับเฟรมวิดีโอของนักกอล์ฟหรือผู้เล่นเบสบอล RTMDet จะสร้างกล่องขอบเขตรอบผู้เล่น ซึ่งจะส่งผ่านไปยัง RTMPose วิธีนี้ช่วยให้การประมาณค่าท่าทางมุ่งเน้นไปที่บริเวณภาพที่เกี่ยวข้อง ลดการใช้ทรัพยากรการคำนวณ

–แทรกรูปภาพ–

6.2 เฟสการประมาณค่าท่าทาง: RTMPose

RTMPose ประมาณค่าตำแหน่งจุดสำคัญภายในกล่องขอบเขต ข้อต่อที่สำคัญสำหรับการวิเคราะห์สวิงกอล์ฟและเบสบอลรวมถึงข้อมือ ข้อศอก ไหล่ สะโพก และหัวเข่า จุดสำคัญเหล่านี้ช่วยประเมินมุมและตำแหน่งของร่างกายในระหว่างเฟสของการแกว่ง: สวิงย้อนหลัง การเหวี่ยงลง และการติดตามไม้

–แทรกรูปภาพ–

6.3 เมตริกส์ประสิทธิภาพ

ประสิทธิภาพโดยทั่วไปของ RTMPose วัดได้โดยใช้เมตริกส์เช่น Average Precision (AP) บนเกณฑ์มาตรฐานการประมาณค่าท่าทาง เช่น MS COCO ด้านล่างคือประสิทธิภาพของแบบจำลองจัดอันดับสูงสุดบนเกณฑ์มาตรฐาน Coco ที่ใช้กันทั่วไป บน Dataset MS COCO val RTMPose-X เป็นแบบจำลองที่มีประสิทธิภาพสูงสุด ซึ่งสามารถให้ข้อเสนอแนะแบบเรียลไทม์และสูงถึง 75.8% AP ด้วยอัตราเฟรมเกิน ?? FPS บน GPU ระดับผู้บริโภค ทำให้เหมาะสำหรับการวิเคราะห์กีฬาความเร็วสูง

อันดับ แบบจำลอง ความละเอียด ขนาด/พารามิเตอร์ (ล้าน) AP การอนุมานแบบเรียลไทม์

1 Sapiens-2B 1024x768 2000 82.2 ไม่

2 Sapiens-1B 1024x768 1000 82.1 ไม่

3 Sapiens-0.6B 1024x768 600 81.2 ไม่

4 Sapiens-0.3B 1024x768 300 79.6 No

5 VitPose-H 256x192 632 79.4 No

6 RTMPose-X 384x288 49 78.8 Yes

7 VitPose-L 256x192 307 78.6 No

8 RTMPose-L 384x288 28 78.3 Yes

9 HRFormer 256x192 43 77.2 No

10 HRNet-UDP 384x288 64 77.2 Yes

11 VitPose-B 256x192 86 77.0 Yes

12 RTMPose-L 256x198 28 76.7 Yes

13 RTMPose-M 384x288 14 76.6 Yes

14 HRNet 384x288 64 76.3 Yes

15 VitPose-S 256x192 43 75.8 Yes

16 RTMPose-M 256x192 14 74.9 Yes

17 SimpleBaseline 256x192 60 73.5 Yes

18 FastPose 256x192 79 73.3 Yes

7. การประยุกต์ใช้ในการวิเคราะห์สวิงกอล์ฟ

โดยการประยุกต์ใช้ RTMPose-X และกรอบงาน RTMDet-M:

ติดตามการเคลื่อนไหวของข้อต่อในแต่ละเฟรม: ให้ข้อมูลที่ครอบคลุมสำหรับการวิเคราะห์แต่ละเฟสของการสวิง

ให้ข้อเสนอแนะแบบเรียลไทม์: เปิดใจให้ได้รับความเข้าใจทันทีเกี่ยวกับท่าทางของสวิงและรูปแบบการเคลื่อนไหวในระหว่างเซสชันฝึกอบรม

เปรียบเทียบกับกลศาสตร์ที่เหมาะสม: อนุญาตให้เปรียบเทียบกับจลนศาสตร์สวิงในอุดมคติเพื่อระบุพื้นที่ที่ต้องปรับปรุง

8. สรุป

การรวมเอา RTMPose-X และ RTMDet-M เข้าด้วยกันนำเสนอโซลูชันที่ทรงพลังสำหรับการวิเคราะห์สวิงกอล์ฟแบบเรียลไทม์ ด้วยความแม่นยำสูง เวลาแฝงต่ำ และความเข้ากันได้ทั่วทุกแพลตฟอร์มฮาร์ดแวร์ วิธีการจากบนลงล่างนี้ให้ความเข้าใจรายละเอียดเกี่ยวกับกลศาสตร์สวิง ซึ่งมีศักยภาพอย่างมากในการช่วยให้นักกอล์ฟทั้งมือสมัครเล่นและมืออาชีพพัฒนาการแสดงออก

9. งานในอนาคต

การพัฒนาในอนาคตอาจเกี่ยวข้องกับ:

การรวมเอาอัลกอริทึมการเรียนรู้ของเครื่องจักร: เพื่อให้บริการการวิเคราะห์เชิงคาดการณ์และแนะนำการปรับปรุงเพื่อเพิ่มประสิทธิภาพของสวิง

การขยายไปสู่สถานการณ์หลายบุคคล: การเพิ่มประสิทธิภาพการใช้งานในกีฬาทีมหรือสภาพแวดล้อมการฝึกอบรมแบบกลุ่ม

การพัฒนาส่วนต่อประสานผู้ใช้ที่ใช้งานง่าย: การสร้างแอปพลิเคชันหรือเครื่องมือที่ทำให้เทคโนโลยีนี้สามารถเข้าถึงได้สำหรับโค้ชและนักกีฬาโดยไม่จำเป็นต้องมีความเชี่ยวชาญด้านเทคนิค

附录

วิธีการโดยละเอียด: วิธีการจากบนลงล่างสำหรับการประมาณค่าท่าทางสวิงกอล์ฟโดยใช้ RTMPose-X และ RTMDet-M

ภาพรวม

วิธีการที่อธิบายไว้ที่นี่นำเสนอขั้นตอนโดยละเอียดในการประมาณค่าท่าทางแบบเรียลไทม์ของสวิงกอล์ฟและเบสบอลโดยใช้วิธีการจากบนลงล่าง โดยใช้ประโยชน์จากจุดแข็งของ RTMPose สำหรับการแปลงตำแหน่งจุดสำคัญและ RTMDet สำหรับการตรวจจับวัตถุ กระบวนการแบ่งออกเป็นหลายขั้นตอน: การตรวจจับ การแปลงตำแหน่งจุดสำคัญ และการประมวลผลภายหลัง แต่ละส่วนจะมีส่วนในการประมาณค่าข้อต่อร่างกายได้อย่างแม่นยำและมีประสิทธิภาพสำหรับการวิเคราะห์ชีววลัฒน์ของสวิงกอล์ฟ

–Insert figure–

1. เฟสการตรวจจับ: การแปลงตำแหน่งแบบเรียลไทม์ด้วย RTMDet-M

ขั้นตอนแรกของวิธีการจากบนลงล่างเกี่ยวข้องกับการตรวจจับนักกอล์ฟภายในแต่ละเฟรมของวิดีโอ ในสถานการณ์กีฬา โดยเฉพาะกอล์ฟ ฉากมักจะประกอบด้วยผู้เล่นเพียงคนเดียว ซึ่งทำให้งานการตรวจจับง่ายขึ้นเมื่อเทียบกับฉากที่มีฝูงชน

1.1 สถาปัตยกรรมแบบจำลอง

RTMDet-M ใช้เป็นตัวตรวจจับวัตถุในไปป์ไลน์ มันใช้เครือข่ายประสาทสัญญาณ Convolutional Neural Network (CNN) โดยเฉพาะอย่างยิ่งกระดูกสันหลัง CSPNeXt ซึ่งออกแบบมาเพื่อปรับประสิทธิภาพการตรวจจับวัตถุแบบเรียลไทม์ขณะที่รักษาสมดุลระหว่างความเร็วและความแม่นยำ ลักษณะสำคัญของสถาปัตยกรรมรวมถึง:

Convolutions ความลึกเคอร์เนลขนาดใหญ่: ใช้ในชั้นกระดูกสันหลังและชั้นคอ เพิ่มสนามการรับชมขณะที่รักษาต้นทุนการคำนวณต่ำ

เครือข่ายปิรามิดฟีเจอร์ (FPN): เทคนิคการสกัดฟีเจอร์แบบหลายสเกลที่อนุญาตให้ตรวจจับวัตถุในระดับต่างๆ เพื่อให้แน่ใจว่านักกอล์ฟสามารถตรวจจับได้โดยไม่คำนึงถึงระยะห่างจากกล้อง

1.2 การกำหนดป้ายกำกับแบบไดนามิก

RTMDet-M ใช้ประโยชน์จากกลยุทธ์การกำหนดป้ายกำกับแบบไดนามิกที่ปรับปรุงความแม่นยำของการตรวจจับโดยการกำหนดป้ายกำกับแบบอ่อนให้กับวัตถุตามการรวมกันของการสูญเสียการจำแนกประเภทและการแปลงตำแหน่ง การกำหนดป้ายกำกับจะควบคุมโดยอัลกอริทึม SimOTA ซึ่งเลือกตัวอย่างที่เป็นบวกแบบไดนามิกตามความน่าจะเป็นของการจับคู่กับวัตถุพื้นฐาน วิธีนี้ช่วยให้มั่นใจได้ถึงการตรวจจับที่มีประสิทธิภาพในสภาพแสงสว่างและสภาพแวดล้อมที่แตกต่างกันซึ่งมักพบในฉากกอล์ฟกลางแจ้ง

1.3 การทำนายกล่องขอบเขต

ตัวตรวจจับจะส่งออกกล่องขอบเขตที่ล้อมรอบนักกอล์ฟในแต่ละเฟรม กล่องขอบเขตเหล่านี้ให้ข้อจำกัดเชิงพื้นที่ที่มีแบบจำลองการประมาณค่าท่าทางจะทำงาน ซึ่งช่วยลดภาระการคำนวณในเฟสการประมาณค่าท่าทางที่ตามมาโดยมุ่งเน้นไปที่เฉพาะพื้นที่ที่เกี่ยวข้องของเฟรมเท่านั้น ในบริบทนี้ RTMDet-M จะสร้างกล่องขอบเขตแบบเรียลไทม์ที่ความเร็วมากกว่า 300 FPS บนฮาร์ดแวร์ที่มีประสิทธิภาพสูง เพื่อให้มั่นใจว่าสามารถจัดการกับพลวัตที่รวดเร็วของการแกว่งกอล์ฟได้

1.4 การยับยั้งค่าสูงสุดแบบไม่ใช่ Pose (NMS)

ในสถานการณ์หลายคน (แม้ว่าจะหายากในการวิเคราะห์การแกว่งกอล์ฟ) RTMDet-M จะรวมอัลกอริทึม Pose Non-Maximum Suppression (NMS) ที่กำจัดการตรวจจับจุดสำคัญที่ซ้ำซ้อน เพื่อให้แน่ใจว่ามีเพียงการตรวจจับที่มั่นใจที่สุดเท่านั้นที่ยังคงอยู่สำหรับทุกคน นี่เป็นสิ่งสำคัญในกรณีที่อาจตรวจจับกล่องขอบเขตที่ทับซ้อนกันในฉากที่คนหนาแน่นหรือลำดับวิดีโอ

1.5 Dataset การฝึกอบรมและประสิทธิภาพ

RTMDet-M ได้รับการฝึกอบรมในงานการจำแนกประเภทแบบไบนารีบนอินสแตนซ์บุคคลในชุดข้อมูล Object356

2. เฟสการประมาณค่าท่าทาง: การโลคัลไลเซชันจุดสำคัญของ RTMPose-X

เมื่อสร้างกล่องขอบเขตสำหรับนักกอล์ฟแล้ว เฟสถัดไปจะเกี่ยวข้องกับการประมาณค่าตำแหน่งที่แม่นยำของข้อต่อของร่างกายสำคัญภายในภูมิภาคนี้ RTMPose-X ซึ่งเป็นแบบจำลองการประมาณค่าท่าทางที่มีประสิทธิภาพสูง จะใช้เพื่อวัตถุประสงค์นี้

2.1 การโลคัลไลเซชันจุดสำคัญตามSimCC

RTMPose-X ใช้อัลกอริทึม SimCC (Simple Coordinate Classification) ซึ่งถือว่าการโลคัลไลเซชันจุดสำคัญเป็นปัญหาการจำแนกประเภท ตรงกันข้ามกับวิธีการแผนที่ความร้อนแบบดั้งเดิม SimCC จะแบ่งพิกัด x และ y ของแต่ละจุดสำคัญเป็นกลุ่มและจำแนกกลุ่มที่แน่นอนซึ่งจุดสำคัญแต่ละจุดอยู่ วิธีการนี้จะลดความซับซ้อนของการคำนวณอย่างมากและปรับปรุงความเร็วของการอนุมานในขณะที่รักษาความแม่นยำสูงสำหรับงานประมาณค่าท่าทางของมนุษย์

2.2 CSPNeXt Backbone

เช่นเดียวกับ RTMDet-M RTMPose-X ยังใช้ CSPNeXt backbone ซึ่งมีการปรับแต่งสำหรับงานการทำนายที่หนาแน่นเช่นการประมาณค่าท่าทาง CSPNeXt backbone มีข้อดีในสถานการณ์นี้ด้วยเหตุผลต่อไปนี้:

สถาปัตยกรรมที่มีน้ำหนักเบา: สถาปัตยกรรมของแบบจำลองได้รับการออกแบบมาเพื่อลดจำนวนพารามิเตอร์ในขณะที่เพิ่มปริมาณงาน ซึ่งจำเป็นสำหรับแอปพลิเคชันแบบเรียลไทม์

การสกัดคุณลักษณะที่มีประสิทธิภาพ: เลเยอร์การสกัดคุณลักษณะของ CSPNeXt ได้รับการปรับให้เหมาะสมเพื่อประมวลผลรูปภาพความละเอียดสูง ซึ่งจำเป็นสำหรับการตรวจจับรายละเอียดเล็กน้อยในส่วนของร่างกายที่เคลื่อนไหวอย่างรวดเร็วระหว่างการแกว่งกอล์ฟ เช่น ข้อมือ ข้อศอก และหัวเข่า

2.3 การแสดงจุดสำคัญ

RTMPose-X จะส่งออกตำแหน่งจุดสำคัญสำหรับส่วนของร่างกายที่เกี่ยวข้องทั้งหมด รวมถึง:

ข้อต่อตัวส่วนบน: ไหล่ ข้อศอก ข้อมือ และคอ

ข้อต่อส่วนล่างของร่างกาย: สะโพก หัวเข่า และข้อเท้า

ข้อต่อเพิ่มเติม: หัว กระดูกสันหลัง และจุดสำคัญอื่นๆ ที่เกี่ยวข้องกับการวิเคราะห์สวิง

ความละเอียดของ 384x288 สำหรับรูปภาพอินพุตช่วยให้มั่นใจว่าแม้แต่การเคลื่อนไหวเล็กน้อยในข้อต่อก็สามารถจับภาพได้อย่างแม่นยำ ในขณะเดียวกันก็รักษาความสามารถของระบบให้ทำงานแบบเรียลไทม์

2.4 RTMPose preprocessing: Unbiased Data Processing (UDP)

ก่อนที่รูปภาพที่ถูกตัดจะป้อนเข้าในแบบจำลอง RTMpose จะทำการขั้นตอน Unbiased Data Processing (UDP) UDP จะแก้ไขอคติที่สำคัญในการประมวลผลข้อมูลของ RTMpose ในระหว่างการฝึกอบรมและการทดสอบ โดยเฉพาะอย่างยิ่งในการแปลงระบบพิกัดและรูปแบบจุดสำคัญ ในไปป์ไลน์การประมาณค่าท่าทางของมนุษย์แบบเดิมๆ การดำเนินการมาตรฐานเช่นการพลิกและการปรับขนาดมักจะเรียงตำแหน่งผลลัพธ์ไม่ให้เหมาะสม โดยเฉพาะอย่างยิ่งเนื่องจากการแปลงตามพิกเซล ซึ่งนำไปสู่การสูญเสียความแม่นยำและการจัดตำแหน่งรูปภาพที่พลิกไม่ให้เหมาะสม UDP แก้ไขสิ่งเหล่านี้โดยสร้างการแปลงระบบพิกัดที่ไม่มีอคติ โดยรักษาการจัดตำแหน่งทางความหมายในพื้นที่พิกัดต่างๆ ระหว่างการดำเนินการที่จำเป็น (การตัด การปรับขนาด การหมุน การพลิก) UDP ยังแนะนำการแปลงรูปแบบจุดสำคัญที่ไม่มีอคติโดยการเข้ารหัสจุดสำคัญเป็นแผนที่ความร้อนโดยไม่นำเสนออคติเชิงตำแหน่ง ซึ่งได้รับการปรับปรุงเพิ่มเติมผ่านกระบวนการถอดรหัสที่มีการตระหนักถึงการกระจายแบบเกาส์เซียน วิธีการประมวลผลข้อมูลนี้จะปรับปรุงประสิทธิภาพของแบบจำลองอย่างเป็นระบบ ตามที่แสดงในการทดสอบที่ครอบคลุมในชุดข้อมูล COCO และ CrowdPose ซึ่งบรรลุความแม่นยำที่เพิ่มขึ้นและลดเวลาแฝงในการอนุมานในแบบจำลองจากบนลงล่างและจากล่างขึ้นบน [Ref]

3. การประมวลผลภายหลังและการปรับปรุงท่าทาง

เมื่อทำการทำนายจุดสำคัญแล้ว จะใช้ขั้นตอนการประมวลผลภายหลังหลายขั้นตอนเพื่อปรับปรุงการประมาณค่าท่าทางและรับประกันความเสถียรในหลายเฟรม

3.1 การปรับปรุงท่าทาง

การแกว่งกอล์ฟเกี่ยวข้องกับการเคลื่อนไหวที่รวดเร็ว ซึ่งอาจนำเสนอสัญญาณรบกวนหรือความผันผวนในตำแหน่งจุดสำคัญที่ประมาณค่าในหลายเฟรม เพื่อลดผลกระทบนี้ One-Euro Filter จะถูกนำไปใช้เพื่อปรับปรุงวิถีจุดสำคัญตามเวลา เพื่อให้แน่ใจว่าความผันผวนเล็กน้อยที่ไม่เป็นฟิสิกส์ในการทำนายจุดสำคัญได้ถูกกำจัดออกไป One-Euro Filter ทำงานโดยปรับแบนด์วิดธ์ของตัวกรองแบบไดนามิกโดยยึดตามความเร็วของการเคลื่อนไหว ซึ่งเหมาะสำหรับสถานการณ์เช่นการแกว่งกอล์ฟ ซึ่งการเคลื่อนไหวจะแตกต่างกันไปตามความเร็วในเฟสต่างๆ (สวิงย้อนหลัง การเหวี่ยงลง และการติดตามไม้)

3.2 กลไกการข้ามเฟรม

เพื่อการปรับให้เหมาะสมเพิ่มเติม กลไกการข้ามเฟรม จะถูกนำไปใช้ ซึ่งการตรวจจับจะดำเนินการบนเฟรมหลักเท่านั้น และการประมาณค่าท่าทางจะถูกจุดแทรกสำหรับเฟรมกลาง สิ่งนี้จะลดภาระการคำนวณลงอย่างมากโดยไม่เสียสละความแม่นยำในสถานการณ์ที่มีการเคลื่อนไหวจำกัดระหว่างเฟรม เช่นการวิเคราะห์การแกว่งกอล์ฟในโหมดสโลว์โมชั่น

4. การติดตามด้านเวลาและความสอดคล้องของลำดับการเคลื่อนไหว

เนื่องจากการแกว่งกอล์ฟมีลำดับตามธรรมชาติ การรักษาความสอดคล้องทางเวลาในการประมาณค่าท่าทางจึงมีความสำคัญอย่างยิ่ง RTMPose-X แก้ไขสิ่งนี้ผ่านเทคนิคการติดตามด้านเวลา ซึ่งรับประกันว่าการทำนายจุดสำคัญมีความสอดคล้องกันในหลายเฟรมที่ต่อเนื่องกัน ซึ่งเกี่ยวข้องกับการติดตามตำแหน่งจุดสำคัญตามเวลาและการรับประกันว่าวิถีของพวกเขาเป็นไปตามรูปแบบการเคลื่อนไหวที่สมจริงตามข้อจำกัดทางชีววิทยา

4.1 การวิเคราะห์ความเร็วและความเร่งของจุดสำคัญ

นอกเหนือจากการติดตามตำแหน่งจุดสำคัญ RTMPose-X ยังประมาณค่าความเร็วและความเร่งของแต่ละจุดสำคัญ ข้อมูลนี้มีความสำคัญต่อการวิเคราะห์พลวัตของการแกว่งกอล์ฟ โดยให้ข้อมูลเชิงลึกเกี่ยวกับเมตริกประสิทธิภาพสำคัญเช่น:

ความเร็วของการสวิง: คำนวณโดยยึดตามความเร็วของข้อมือระหว่างการเหวี่ยงลง

การหมุนสะโพก: วิเคราะห์ผ่านความเร็วของการหมุนของข้อสะโพก

เส้นทางหัวไม้และความเร็วหัว: อนุมานทางอ้อมจากวิถีข้อมือและข้อศอก

เมตริกเหล่านี้สามารถเปรียบเทียบกับเกณฑ์มาตรฐานของมืออาชีพเพื่อให้ข้อเสนอแนะเกี่ยวกับกลศาสตร์การแกว่งของผู้เล่น

5. การอนุมานและประสิทธิภาพแบบเรียลไทม์

ไปป์ไลน์จากบนลงล่างทั้งหมดได้รับการปรับให้เหมาะสมสำหรับประสิทธิภาพแบบเรียลไทม์ ช่วยให้สามารถประมาณค่าท่าทางที่ความเร็วมากกว่า 90 FPS บน GPU สมัยใหม่ การใช้สถาปัตยกรรมแบบจำลองที่มีประสิทธิภาพสูงมาก (CSPNeXt) และเทคนิคการอนุมานที่รวดเร็ว (SimCC) รับประกันว่าระบบสามารถจัดการอินพุตวิดีโอที่มีอัตราเฟรมสูง ทำให้เหมาะสำหรับการให้ข้อเสนอแนะแบบเรียลไทม์ระหว่างเซสชันการฝึกอบรม

6. การประเมินและการตรวจสอบ

แบบจำลอง RTMPose-X และ RTMDet-M ได้รับการประเมินในชุดข้อมูลมาตรฐานเช่น COCO และ MPII โดยแสดงประสิทธิภาพที่แข็งแกร่งโดยมีความแม่นยำเฉลี่ย (AP) ที่ 75.8% ในชุดข้อมูล COCO สำหรับจุดสำคัญของร่างกาย ผลลัพธ์เหล่านี้ได้รับการตรวจสอบกับคำอธิบายประกอบพื้นฐานความจริงในชุดข้อมูลการแกว่งกอล์ฟ เพื่อให้แน่ใจว่าความแข็งแกร่งของแบบจำลองในการจับภาพการเคลื่อนไหวของกีฬาแบบพลวัต

6.1 เมตริกส์การแสดงออก

Mean Squared Error (MSE): ใช้เพื่อวัดความแม่นยำของการทำนายจุดสำคัญเมื่อเทียบกับข้อมูลอ้างอิง

Average Precision (AP): ประเมินผลการแสดงออกโดยรวมของโมเดลการประมาณค่าท่าทาง

เวลาการประมวลผลเฟรม: ทดสอบเพื่อให้แน่ใจว่าระบบเป็นไปตามข้อกำหนดแบบเรียลไทม์ (<10 มิลลิวินาทีต่อเฟรม)

7. บทสรุป

วิธีการจากบนลงล่างโดยใช้ RTMPose-X และ RTMDet-M นำเสนอวิธีการที่มีประสิทธิภาพและแม่นยำสำหรับการประมาณค่าท่าทางแบบเรียลไทม์ในการวิเคราะห์กีฬา โดยเฉพาะอย่างยิ่งสำหรับการวิเคราะห์สวิงกอล์ฟ ด้วยการตรวจจับจุดสำคัญที่แข็งแกร่ง การติดตามตามเวลา และการคำนวณแบบเรียลไทม์ วิธีการนี้มอบข้อมูลเชิงชีววลิทยาที่ละเอียดเกี่ยวกับพลวัตของสวิงกอล์ฟ ช่วยในการปรับปรุงการแสดงออกและการป้องกันการบาดเจ็บ

เอกสารอ้างอิง

[1] RTMpose https://arxiv.org/pdf/2303.07399

[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447

[3] SIMCC https://arxiv.org/abs/2107.03332

[4] RTMdet https://arxiv.org/pdf/2212.07784

[5] CSPDarkNet

[6] Halpe26

[] Dataset ท้าทายด้าน AI:

[] MS Coco Dataset:

[7] Crowdpose Dataset: https://arxiv.org/pdf/1812.00324

[] MPII Dataset:

[] sub-JHMBD Dataset: