การเพิ่มประสิทธิภาพการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์สำหรับสวิงกอล์ฟและเบสบอลโดยใช้ RTMPose และ RTMDet: วิธีการจากบนลงล่าง
การเพิ่มประสิทธิภาพการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์สำหรับสวิงกอล์ฟและเบสบอลโดยใช้ RTMPose และ RTMDet: วิธีการจากบนลงล่าง
บทสรุป
เอกสารชุดนี้บันทึกการประยุกต์ใช้ RTMPose และ RTMDet เพื่อการประมาณค่าท่าทางที่แม่นยำและมีประสิทธิภาพในการวิเคราะห์สวิงกอล์ฟและเบสบอล โดยใช้เทคนิคที่ทันสมัยที่สุดซึ่งปรับให้เหมาะสำหรับประสิทธิภาพแบบเรียลไทม์ แบบจำลองเหล่านี้ช่วยให้สามารถติดตามรายละเอียดการเคลื่อนไหวของร่างกายในระหว่างสวิงกอล์ฟและเบสบอล ซึ่งเป็นฟีเจอร์ที่มีความสำคัญอย่างยิ่งสำหรับการปรับปรุงประสิทธิภาพในการวิเคราะห์กีฬา เราเน้นถึงข้อดีของวิธีการจากบนลงล่าง โดยที่ตัวตรวจจับ RTMDet ที่มีอยู่แล้วจะระบุตำแหน่งของนักกอล์ฟและผู้เล่นเบสบอลในแต่ละเฟรม และ RTMPose ประมาณค่าตำแหน่งของจุดสำคัญของร่างกาย
1. บทนำ
การประมาณค่าท่าทางได้กลายเป็นหัวใจสำคัญในการวิเคราะห์ประสิทธิภาพกีฬา ซึ่งช่วยให้สามารถติดตามการเคลื่อนไหวของนักกีฬาได้อย่างแม่นยำ ในกอล์ฟและเบสบอล การจับภาพข้อมูลเชิงชีววิทยาของสวิงของผู้เล่นจะให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับไดนามิกการแกว่ง ซึ่งช่วยให้มืออาชีพและสมัครเล่นปรับปรุงเทคนิคของตนเอง วิธีการประมาณค่าท่าทาง 2D แบบดั้งเดิมมักเผชิญกับความท้าทายด้านเวลาแฝงและความแม่นยำ โดยเฉพาะอย่างยิ่งในสถานการณ์แบบเรียลไทม์ บทความนี้เสนอแนวทางแก้ไขโดยใช้ RTMPose และ RTMDet ภายในเฟรมเวิร์ก mmpose Framework เพื่อการประมาณค่าท่าทางโดยละเอียดในระหว่างสวิงกอล์ฟและเบสบอล
2. พื้นฐาน
ความซับซ้อนของสวิงกอล์ฟและเบสบอลต้องการการวัดการเคลื่อนไหวของร่างกายที่แม่นยำ วิธีการประมาณค่าท่าทางที่มีอยู่อาจไม่ให้ความแม่นยำที่จำเป็นสำหรับประสิทธิภาพแบบเรียลไทม์ ความก้าวหน้าในการเรียนรู้เชิงลึกและการมองเห็นด้วยคอมพิวเตอร์ได้นำเสนอแบบจำลองเช่น RTMPose และ RTMDet ซึ่งมีความแม่นยำและประสิทธิภาพที่ดีขึ้น
3. วิธีการจากบนลงล่างกับ RTMdet และ RTMpose
–แทรกรูปภาพ–
3. RTMPose: แบบจำลองการประมาณค่าท่าทางที่มีประสิทธิภาพสูง
RTMPose [1] ออกแบบมาเพื่อการประมาณค่าท่าทางแบบเรียลไทม์ที่มีประสิทธิภาพสูง ปรับให้เหมาะสำหรับการทำงานอย่างมีประสิทธิภาพบนฮาร์ดแวร์ที่มีจำกัด
ฟีเจอร์หลัก:
สถาปัตยกรรมแบบจำลองและประสิทธิภาพ: RTMpose ใช้ CSPNeXt เป็น Backbone [1, 2] ซึ่งสมดุลระหว่างความเร็วและความแม่นยำ CSPNeXt ปรับให้เหมาะสำหรับงานการทำนายแบบหนาแน่นเช่นการประมาณค่าท่าทางและการตรวจจับวัตถุ ทำให้มีความละเอียดสูงและความแม่นยำในขณะที่รักษาประสิทธิภาพการคำนวณ
การทำนายจุดสำคัญ: ใช้อัลกอริทึมตามที่ SimCC [1, 3] โดยถือว่าตำแหน่งแนวนอนและแนวตั้งของจุดสำคัญเป็นงานการจำแนกประเภทแยกต่างหาก การแสดงแบบนี้ลดการใช้ทรัพยากรการคำนวณและเหมาะสำหรับการนำไปใช้งานบนอุปกรณ์ต่างๆ
4. RTMDet: Backbone ของการตรวจจับ
RTMDet [4] ทำหน้าที่เป็นตัวตรวจจับที่อยู่ก่อน RTMPose ในไปไลน์จากบนลงล่าง โดยระบุตำแหน่งของนักกอล์ฟหรือผู้เล่นเบสบอลภายในแต่ละเฟรม
ฟีเจอร์หลัก:
สถาปัตยกรรมแบบจำลองและประสิทธิภาพ: RTMDet ใช้เวอร์ชันที่ดัดแปลงของ CSPDarkNet [5] ซึ่งให้ผลการฝึกอบรมและมีความแม่นยำมากกว่าแบบจำลอง YOLO หลายรุ่น เวอร์ชันที่ดัดแปลงนี้ใช้ประโยชน์จากการม้วนรวมแบบลึกขนาดใหญ่เพื่อสมดุลระหว่างความซับซ้อนและความเร็ว และมีประสิทธิภาพสูงทั้งใน GPU และ CPU ทำให้เหมาะสำหรับแอปพลิเคชันแบบเรียลไทม์เช่นการติดตามประสิทธิภาพกีฬา
ความเก่งกาจ: จัดการงานการตรวจจับวัตถุที่หลากหลาย รวมถึงการแบ่งส่วนอินสแตนซ์และการตรวจจับวัตถุแบบหมุน ช่วยให้มีการระบุตำแหน่งผู้เล่นที่แม่นยำ แม้ในฉากที่มีการเปลี่ยนแปลงอยู่
5. ข้อดีของการใช้ RTMDet และ RTMPose ในการวิเคราะห์สวิงกอล์ฟและเบสบอล
5.1 ความแม่นยำที่สูงขึ้นในฉากที่ไม่มีความหนาแน่น
ในสถานการณ์กอล์ฟ/เบสบอลทั่วไปที่มีบุคคลน้อยในเฟรม RTMDet จะแยกนักกอล์ฟ/ผู้เล่นเบสบอล ทำให้ RTMPose สามารถประมวลผลแต่ละบุคคลที่ตรวจจับได้ด้วยความแม่นยำสูง วิธีนี้ช่วยหลีกเลี่ยงความซับซ้อนของวิธีการจากล่างขึ้นบนที่ประมวลผลจุดสำคัญทั้งหมดสำหรับบุคคลทั้งหมดในเฟรมพร้อมกัน นอกจากนี้ วิธีการจากบนลงล่างยังสามารถรวมอัลกอริทึมการประมวลผลภายหลังของ RTMdet เพื่อระบุบุคคลที่ถูกต้อง (เช่น นักกอล์ฟหรือผู้เล่นเบสบอล) ก่อนทำการประมาณค่าท่าทาง นอกจากนี้ RTMPose ได้รับการฝึกอบรมล่วงหน้าบนวัสดุภาพที่ขยายออกมา
5.2 การคำนวณที่มีประสิทธิภาพและประสิทธิภาพแบบเรียลไทม์
การใช้แบบจำลองที่เบา เช่น RTMdet และ RTMpose รักษาเวลาแฝงต่ำ ช่วยให้การวิเคราะห์สวิงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค สิ่งนี้มีประโยชน์อย่างยิ่งต่อการให้ข้อเสนอแนะแบบสดใจในระหว่างการฝึกโค้ชหรือการฝึกซ้อม ระบบการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์ของ Swing Catalyst เป็นระบบสตูดิโอไม่กี่แห่งที่ให้ข้อเสนอแนะการจับภาพเคลื่อนไหวแบบสดใจแก่นักกอล์ฟและผู้เล่นเบสบอล
5.3 การวิเคราะห์จุดสำคัญโดยละเอียด
RTMPose ตรวจจับการตั้งค่าจุดสำคัญของร่างกาย 26 จุด [6] แสดงในรูปที่ 1 ด้านล่าง ซึ่งจำเป็นสำหรับการวิเคราะห์จลนศาสตร์สวิงกอล์ฟและเบสบอล Halpe26 เป็นการตั้งค่าที่ขยายออกมาซึ่งรวมถึงเครื่องหมายเพิ่มเติมบนเท้าและหัวเมื่อเทียบกับการตั้งค่า Coco มาตรฐานที่มี 17 เครื่องหมาย
–แทรกรูปภาพ–
6. วิธีการสำหรับการจับภาพเคลื่อนไหวแบบไม่มีมาร์กเกอร์สวิงกอล์ฟและเบสบอล
6.1 เฟสการตรวจจับ: RTMDet
เมื่อประยุกต์ใช้กับเฟรมวิดีโอของนักกอล์ฟหรือผู้เล่นเบสบอล RTMDet จะสร้างกล่องขอบเขตรอบผู้เล่น ซึ่งจะส่งผ่านไปยัง RTMPose วิธีนี้ช่วยให้การประมาณค่าท่าทางมุ่งเน้นไปที่บริเวณภาพที่เกี่ยวข้อง ลดการใช้ทรัพยากรการคำนวณ
–แทรกรูปภาพ–
6.2 เฟสการประมาณค่าท่าทาง: RTMPose
RTMPose ประมาณค่าตำแหน่งจุดสำคัญภายในกล่องขอบเขต ข้อต่อที่สำคัญสำหรับการวิเคราะห์สวิงกอล์ฟและเบสบอลรวมถึงข้อมือ ข้อศอก ไหล่ สะโพก และหัวเข่า จุดสำคัญเหล่านี้ช่วยประเมินมุมและตำแหน่งของร่างกายในระหว่างเฟสของการแกว่ง: สวิงย้อนหลัง การเหวี่ยงลง และการติดตามไม้
–แทรกรูปภาพ–
6.3 เมตริกส์ประสิทธิภาพ
ประสิทธิภาพโดยทั่วไปของ RTMPose วัดได้โดยใช้เมตริกส์เช่น Average Precision (AP) บนเกณฑ์มาตรฐานการประมาณค่าท่าทาง เช่น MS COCO ด้านล่างคือประสิทธิภาพของแบบจำลองจัดอันดับสูงสุดบนเกณฑ์มาตรฐาน Coco ที่ใช้กันทั่วไป บน Dataset MS COCO val RTMPose-X เป็นแบบจำลองที่มีประสิทธิภาพสูงสุด ซึ่งสามารถให้ข้อเสนอแนะแบบเรียลไทม์และสูงถึง 75.8% AP ด้วยอัตราเฟรมเกิน ?? FPS บน GPU ระดับผู้บริโภค ทำให้เหมาะสำหรับการวิเคราะห์กีฬาความเร็วสูง
อันดับ แบบจำลอง ความละเอียด ขนาด/พารามิเตอร์ (ล้าน) AP การอนุมานแบบเรียลไทม์
1 Sapiens-2B 1024x768 2000 82.2 ไม่
2 Sapiens-1B 1024x768 1000 82.1 ไม่
3 Sapiens-0.6B 1024x768 600 81.2 ไม่
4 Sapiens-0.3B 1024x768 300 79.6 No
5 VitPose-H 256x192 632 79.4 No
6 RTMPose-X 384x288 49 78.8 Yes
7 VitPose-L 256x192 307 78.6 No
8 RTMPose-L 384x288 28 78.3 Yes
9 HRFormer 256x192 43 77.2 No
10 HRNet-UDP 384x288 64 77.2 Yes
11 VitPose-B 256x192 86 77.0 Yes
12 RTMPose-L 256x198 28 76.7 Yes
13 RTMPose-M 384x288 14 76.6 Yes
14 HRNet 384x288 64 76.3 Yes
15 VitPose-S 256x192 43 75.8 Yes
16 RTMPose-M 256x192 14 74.9 Yes
17 SimpleBaseline 256x192 60 73.5 Yes
18 FastPose 256x192 79 73.3 Yes
7. การประยุกต์ใช้ในการวิเคราะห์สวิงกอล์ฟ
โดยการประยุกต์ใช้ RTMPose-X และกรอบงาน RTMDet-M:
ติดตามการเคลื่อนไหวของข้อต่อในแต่ละเฟรม: ให้ข้อมูลที่ครอบคลุมสำหรับการวิเคราะห์แต่ละเฟสของการสวิง
ให้ข้อเสนอแนะแบบเรียลไทม์: เปิดใจให้ได้รับความเข้าใจทันทีเกี่ยวกับท่าทางของสวิงและรูปแบบการเคลื่อนไหวในระหว่างเซสชันฝึกอบรม
เปรียบเทียบกับกลศาสตร์ที่เหมาะสม: อนุญาตให้เปรียบเทียบกับจลนศาสตร์สวิงในอุดมคติเพื่อระบุพื้นที่ที่ต้องปรับปรุง
8. สรุป
การรวมเอา RTMPose-X และ RTMDet-M เข้าด้วยกันนำเสนอโซลูชันที่ทรงพลังสำหรับการวิเคราะห์สวิงกอล์ฟแบบเรียลไทม์ ด้วยความแม่นยำสูง เวลาแฝงต่ำ และความเข้ากันได้ทั่วทุกแพลตฟอร์มฮาร์ดแวร์ วิธีการจากบนลงล่างนี้ให้ความเข้าใจรายละเอียดเกี่ยวกับกลศาสตร์สวิง ซึ่งมีศักยภาพอย่างมากในการช่วยให้นักกอล์ฟทั้งมือสมัครเล่นและมืออาชีพพัฒนาการแสดงออก
9. งานในอนาคต
การพัฒนาในอนาคตอาจเกี่ยวข้องกับ:
การรวมเอาอัลกอริทึมการเรียนรู้ของเครื่องจักร: เพื่อให้บริการการวิเคราะห์เชิงคาดการณ์และแนะนำการปรับปรุงเพื่อเพิ่มประสิทธิภาพของสวิง
การขยายไปสู่สถานการณ์หลายบุคคล: การเพิ่มประสิทธิภาพการใช้งานในกีฬาทีมหรือสภาพแวดล้อมการฝึกอบรมแบบกลุ่ม
การพัฒนาส่วนต่อประสานผู้ใช้ที่ใช้งานง่าย: การสร้างแอปพลิเคชันหรือเครื่องมือที่ทำให้เทคโนโลยีนี้สามารถเข้าถึงได้สำหรับโค้ชและนักกีฬาโดยไม่จำเป็นต้องมีความเชี่ยวชาญด้านเทคนิค
附录
วิธีการโดยละเอียด: วิธีการจากบนลงล่างสำหรับการประมาณค่าท่าทางสวิงกอล์ฟโดยใช้ RTMPose-X และ RTMDet-M
ภาพรวม
วิธีการที่อธิบายไว้ที่นี่นำเสนอขั้นตอนโดยละเอียดในการประมาณค่าท่าทางแบบเรียลไทม์ของสวิงกอล์ฟและเบสบอลโดยใช้วิธีการจากบนลงล่าง โดยใช้ประโยชน์จากจุดแข็งของ RTMPose สำหรับการแปลงตำแหน่งจุดสำคัญและ RTMDet สำหรับการตรวจจับวัตถุ กระบวนการแบ่งออกเป็นหลายขั้นตอน: การตรวจจับ การแปลงตำแหน่งจุดสำคัญ และการประมวลผลภายหลัง แต่ละส่วนจะมีส่วนในการประมาณค่าข้อต่อร่างกายได้อย่างแม่นยำและมีประสิทธิภาพสำหรับการวิเคราะห์ชีววลัฒน์ของสวิงกอล์ฟ
–Insert figure–
1. เฟสการตรวจจับ: การแปลงตำแหน่งแบบเรียลไทม์ด้วย RTMDet-M
ขั้นตอนแรกของวิธีการจากบนลงล่างเกี่ยวข้องกับการตรวจจับนักกอล์ฟภายในแต่ละเฟรมของวิดีโอ ในสถานการณ์กีฬา โดยเฉพาะกอล์ฟ ฉากมักจะประกอบด้วยผู้เล่นเพียงคนเดียว ซึ่งทำให้งานการตรวจจับง่ายขึ้นเมื่อเทียบกับฉากที่มีฝูงชน
1.1 สถาปัตยกรรมแบบจำลอง
RTMDet-M ใช้เป็นตัวตรวจจับวัตถุในไปป์ไลน์ มันใช้เครือข่ายประสาทสัญญาณ Convolutional Neural Network (CNN) โดยเฉพาะอย่างยิ่งกระดูกสันหลัง CSPNeXt ซึ่งออกแบบมาเพื่อปรับประสิทธิภาพการตรวจจับวัตถุแบบเรียลไทม์ขณะที่รักษาสมดุลระหว่างความเร็วและความแม่นยำ ลักษณะสำคัญของสถาปัตยกรรมรวมถึง:
Convolutions ความลึกเคอร์เนลขนาดใหญ่: ใช้ในชั้นกระดูกสันหลังและชั้นคอ เพิ่มสนามการรับชมขณะที่รักษาต้นทุนการคำนวณต่ำ
เครือข่ายปิรามิดฟีเจอร์ (FPN): เทคนิคการสกัดฟีเจอร์แบบหลายสเกลที่อนุญาตให้ตรวจจับวัตถุในระดับต่างๆ เพื่อให้แน่ใจว่านักกอล์ฟสามารถตรวจจับได้โดยไม่คำนึงถึงระยะห่างจากกล้อง
1.2 การกำหนดป้ายกำกับแบบไดนามิก
RTMDet-M ใช้ประโยชน์จากกลยุทธ์การกำหนดป้ายกำกับแบบไดนามิกที่ปรับปรุงความแม่นยำของการตรวจจับโดยการกำหนดป้ายกำกับแบบอ่อนให้กับวัตถุตามการรวมกันของการสูญเสียการจำแนกประเภทและการแปลงตำแหน่ง การกำหนดป้ายกำกับจะควบคุมโดยอัลกอริทึม SimOTA ซึ่งเลือกตัวอย่างที่เป็นบวกแบบไดนามิกตามความน่าจะเป็นของการจับคู่กับวัตถุพื้นฐาน วิธีนี้ช่วยให้มั่นใจได้ถึงการตรวจจับที่มีประสิทธิภาพในสภาพแสงสว่างและสภาพแวดล้อมที่แตกต่างกันซึ่งมักพบในฉากกอล์ฟกลางแจ้ง
1.3 การทำนายกล่องขอบเขต
ตัวตรวจจับจะส่งออกกล่องขอบเขตที่ล้อมรอบนักกอล์ฟในแต่ละเฟรม กล่องขอบเขตเหล่านี้ให้ข้อจำกัดเชิงพื้นที่ที่มีแบบจำลองการประมาณค่าท่าทางจะทำงาน ซึ่งช่วยลดภาระการคำนวณในเฟสการประมาณค่าท่าทางที่ตามมาโดยมุ่งเน้นไปที่เฉพาะพื้นที่ที่เกี่ยวข้องของเฟรมเท่านั้น ในบริบทนี้ RTMDet-M จะสร้างกล่องขอบเขตแบบเรียลไทม์ที่ความเร็วมากกว่า 300 FPS บนฮาร์ดแวร์ที่มีประสิทธิภาพสูง เพื่อให้มั่นใจว่าสามารถจัดการกับพลวัตที่รวดเร็วของการแกว่งกอล์ฟได้
1.4 การยับยั้งค่าสูงสุดแบบไม่ใช่ Pose (NMS)
ในสถานการณ์หลายคน (แม้ว่าจะหายากในการวิเคราะห์การแกว่งกอล์ฟ) RTMDet-M จะรวมอัลกอริทึม Pose Non-Maximum Suppression (NMS) ที่กำจัดการตรวจจับจุดสำคัญที่ซ้ำซ้อน เพื่อให้แน่ใจว่ามีเพียงการตรวจจับที่มั่นใจที่สุดเท่านั้นที่ยังคงอยู่สำหรับทุกคน นี่เป็นสิ่งสำคัญในกรณีที่อาจตรวจจับกล่องขอบเขตที่ทับซ้อนกันในฉากที่คนหนาแน่นหรือลำดับวิดีโอ
1.5 Dataset การฝึกอบรมและประสิทธิภาพ
RTMDet-M ได้รับการฝึกอบรมในงานการจำแนกประเภทแบบไบนารีบนอินสแตนซ์บุคคลในชุดข้อมูล Object356
2. เฟสการประมาณค่าท่าทาง: การโลคัลไลเซชันจุดสำคัญของ RTMPose-X
เมื่อสร้างกล่องขอบเขตสำหรับนักกอล์ฟแล้ว เฟสถัดไปจะเกี่ยวข้องกับการประมาณค่าตำแหน่งที่แม่นยำของข้อต่อของร่างกายสำคัญภายในภูมิภาคนี้ RTMPose-X ซึ่งเป็นแบบจำลองการประมาณค่าท่าทางที่มีประสิทธิภาพสูง จะใช้เพื่อวัตถุประสงค์นี้
2.1 การโลคัลไลเซชันจุดสำคัญตามSimCC
RTMPose-X ใช้อัลกอริทึม SimCC (Simple Coordinate Classification) ซึ่งถือว่าการโลคัลไลเซชันจุดสำคัญเป็นปัญหาการจำแนกประเภท ตรงกันข้ามกับวิธีการแผนที่ความร้อนแบบดั้งเดิม SimCC จะแบ่งพิกัด x และ y ของแต่ละจุดสำคัญเป็นกลุ่มและจำแนกกลุ่มที่แน่นอนซึ่งจุดสำคัญแต่ละจุดอยู่ วิธีการนี้จะลดความซับซ้อนของการคำนวณอย่างมากและปรับปรุงความเร็วของการอนุมานในขณะที่รักษาความแม่นยำสูงสำหรับงานประมาณค่าท่าทางของมนุษย์
2.2 CSPNeXt Backbone
เช่นเดียวกับ RTMDet-M RTMPose-X ยังใช้ CSPNeXt backbone ซึ่งมีการปรับแต่งสำหรับงานการทำนายที่หนาแน่นเช่นการประมาณค่าท่าทาง CSPNeXt backbone มีข้อดีในสถานการณ์นี้ด้วยเหตุผลต่อไปนี้:
สถาปัตยกรรมที่มีน้ำหนักเบา: สถาปัตยกรรมของแบบจำลองได้รับการออกแบบมาเพื่อลดจำนวนพารามิเตอร์ในขณะที่เพิ่มปริมาณงาน ซึ่งจำเป็นสำหรับแอปพลิเคชันแบบเรียลไทม์
การสกัดคุณลักษณะที่มีประสิทธิภาพ: เลเยอร์การสกัดคุณลักษณะของ CSPNeXt ได้รับการปรับให้เหมาะสมเพื่อประมวลผลรูปภาพความละเอียดสูง ซึ่งจำเป็นสำหรับการตรวจจับรายละเอียดเล็กน้อยในส่วนของร่างกายที่เคลื่อนไหวอย่างรวดเร็วระหว่างการแกว่งกอล์ฟ เช่น ข้อมือ ข้อศอก และหัวเข่า
2.3 การแสดงจุดสำคัญ
RTMPose-X จะส่งออกตำแหน่งจุดสำคัญสำหรับส่วนของร่างกายที่เกี่ยวข้องทั้งหมด รวมถึง:
ข้อต่อตัวส่วนบน: ไหล่ ข้อศอก ข้อมือ และคอ
ข้อต่อส่วนล่างของร่างกาย: สะโพก หัวเข่า และข้อเท้า
ข้อต่อเพิ่มเติม: หัว กระดูกสันหลัง และจุดสำคัญอื่นๆ ที่เกี่ยวข้องกับการวิเคราะห์สวิง
ความละเอียดของ 384x288 สำหรับรูปภาพอินพุตช่วยให้มั่นใจว่าแม้แต่การเคลื่อนไหวเล็กน้อยในข้อต่อก็สามารถจับภาพได้อย่างแม่นยำ ในขณะเดียวกันก็รักษาความสามารถของระบบให้ทำงานแบบเรียลไทม์
2.4 RTMPose preprocessing: Unbiased Data Processing (UDP)
ก่อนที่รูปภาพที่ถูกตัดจะป้อนเข้าในแบบจำลอง RTMpose จะทำการขั้นตอน Unbiased Data Processing (UDP) UDP จะแก้ไขอคติที่สำคัญในการประมวลผลข้อมูลของ RTMpose ในระหว่างการฝึกอบรมและการทดสอบ โดยเฉพาะอย่างยิ่งในการแปลงระบบพิกัดและรูปแบบจุดสำคัญ ในไปป์ไลน์การประมาณค่าท่าทางของมนุษย์แบบเดิมๆ การดำเนินการมาตรฐานเช่นการพลิกและการปรับขนาดมักจะเรียงตำแหน่งผลลัพธ์ไม่ให้เหมาะสม โดยเฉพาะอย่างยิ่งเนื่องจากการแปลงตามพิกเซล ซึ่งนำไปสู่การสูญเสียความแม่นยำและการจัดตำแหน่งรูปภาพที่พลิกไม่ให้เหมาะสม UDP แก้ไขสิ่งเหล่านี้โดยสร้างการแปลงระบบพิกัดที่ไม่มีอคติ โดยรักษาการจัดตำแหน่งทางความหมายในพื้นที่พิกัดต่างๆ ระหว่างการดำเนินการที่จำเป็น (การตัด การปรับขนาด การหมุน การพลิก) UDP ยังแนะนำการแปลงรูปแบบจุดสำคัญที่ไม่มีอคติโดยการเข้ารหัสจุดสำคัญเป็นแผนที่ความร้อนโดยไม่นำเสนออคติเชิงตำแหน่ง ซึ่งได้รับการปรับปรุงเพิ่มเติมผ่านกระบวนการถอดรหัสที่มีการตระหนักถึงการกระจายแบบเกาส์เซียน วิธีการประมวลผลข้อมูลนี้จะปรับปรุงประสิทธิภาพของแบบจำลองอย่างเป็นระบบ ตามที่แสดงในการทดสอบที่ครอบคลุมในชุดข้อมูล COCO และ CrowdPose ซึ่งบรรลุความแม่นยำที่เพิ่มขึ้นและลดเวลาแฝงในการอนุมานในแบบจำลองจากบนลงล่างและจากล่างขึ้นบน [Ref]
3. การประมวลผลภายหลังและการปรับปรุงท่าทาง
เมื่อทำการทำนายจุดสำคัญแล้ว จะใช้ขั้นตอนการประมวลผลภายหลังหลายขั้นตอนเพื่อปรับปรุงการประมาณค่าท่าทางและรับประกันความเสถียรในหลายเฟรม
3.1 การปรับปรุงท่าทาง
การแกว่งกอล์ฟเกี่ยวข้องกับการเคลื่อนไหวที่รวดเร็ว ซึ่งอาจนำเสนอสัญญาณรบกวนหรือความผันผวนในตำแหน่งจุดสำคัญที่ประมาณค่าในหลายเฟรม เพื่อลดผลกระทบนี้ One-Euro Filter จะถูกนำไปใช้เพื่อปรับปรุงวิถีจุดสำคัญตามเวลา เพื่อให้แน่ใจว่าความผันผวนเล็กน้อยที่ไม่เป็นฟิสิกส์ในการทำนายจุดสำคัญได้ถูกกำจัดออกไป One-Euro Filter ทำงานโดยปรับแบนด์วิดธ์ของตัวกรองแบบไดนามิกโดยยึดตามความเร็วของการเคลื่อนไหว ซึ่งเหมาะสำหรับสถานการณ์เช่นการแกว่งกอล์ฟ ซึ่งการเคลื่อนไหวจะแตกต่างกันไปตามความเร็วในเฟสต่างๆ (สวิงย้อนหลัง การเหวี่ยงลง และการติดตามไม้)
3.2 กลไกการข้ามเฟรม
เพื่อการปรับให้เหมาะสมเพิ่มเติม กลไกการข้ามเฟรม จะถูกนำไปใช้ ซึ่งการตรวจจับจะดำเนินการบนเฟรมหลักเท่านั้น และการประมาณค่าท่าทางจะถูกจุดแทรกสำหรับเฟรมกลาง สิ่งนี้จะลดภาระการคำนวณลงอย่างมากโดยไม่เสียสละความแม่นยำในสถานการณ์ที่มีการเคลื่อนไหวจำกัดระหว่างเฟรม เช่นการวิเคราะห์การแกว่งกอล์ฟในโหมดสโลว์โมชั่น
4. การติดตามด้านเวลาและความสอดคล้องของลำดับการเคลื่อนไหว
เนื่องจากการแกว่งกอล์ฟมีลำดับตามธรรมชาติ การรักษาความสอดคล้องทางเวลาในการประมาณค่าท่าทางจึงมีความสำคัญอย่างยิ่ง RTMPose-X แก้ไขสิ่งนี้ผ่านเทคนิคการติดตามด้านเวลา ซึ่งรับประกันว่าการทำนายจุดสำคัญมีความสอดคล้องกันในหลายเฟรมที่ต่อเนื่องกัน ซึ่งเกี่ยวข้องกับการติดตามตำแหน่งจุดสำคัญตามเวลาและการรับประกันว่าวิถีของพวกเขาเป็นไปตามรูปแบบการเคลื่อนไหวที่สมจริงตามข้อจำกัดทางชีววิทยา
4.1 การวิเคราะห์ความเร็วและความเร่งของจุดสำคัญ
นอกเหนือจากการติดตามตำแหน่งจุดสำคัญ RTMPose-X ยังประมาณค่าความเร็วและความเร่งของแต่ละจุดสำคัญ ข้อมูลนี้มีความสำคัญต่อการวิเคราะห์พลวัตของการแกว่งกอล์ฟ โดยให้ข้อมูลเชิงลึกเกี่ยวกับเมตริกประสิทธิภาพสำคัญเช่น:
ความเร็วของการสวิง: คำนวณโดยยึดตามความเร็วของข้อมือระหว่างการเหวี่ยงลง
การหมุนสะโพก: วิเคราะห์ผ่านความเร็วของการหมุนของข้อสะโพก
เส้นทางหัวไม้และความเร็วหัว: อนุมานทางอ้อมจากวิถีข้อมือและข้อศอก
เมตริกเหล่านี้สามารถเปรียบเทียบกับเกณฑ์มาตรฐานของมืออาชีพเพื่อให้ข้อเสนอแนะเกี่ยวกับกลศาสตร์การแกว่งของผู้เล่น
5. การอนุมานและประสิทธิภาพแบบเรียลไทม์
ไปป์ไลน์จากบนลงล่างทั้งหมดได้รับการปรับให้เหมาะสมสำหรับประสิทธิภาพแบบเรียลไทม์ ช่วยให้สามารถประมาณค่าท่าทางที่ความเร็วมากกว่า 90 FPS บน GPU สมัยใหม่ การใช้สถาปัตยกรรมแบบจำลองที่มีประสิทธิภาพสูงมาก (CSPNeXt) และเทคนิคการอนุมานที่รวดเร็ว (SimCC) รับประกันว่าระบบสามารถจัดการอินพุตวิดีโอที่มีอัตราเฟรมสูง ทำให้เหมาะสำหรับการให้ข้อเสนอแนะแบบเรียลไทม์ระหว่างเซสชันการฝึกอบรม
6. การประเมินและการตรวจสอบ
แบบจำลอง RTMPose-X และ RTMDet-M ได้รับการประเมินในชุดข้อมูลมาตรฐานเช่น COCO และ MPII โดยแสดงประสิทธิภาพที่แข็งแกร่งโดยมีความแม่นยำเฉลี่ย (AP) ที่ 75.8% ในชุดข้อมูล COCO สำหรับจุดสำคัญของร่างกาย ผลลัพธ์เหล่านี้ได้รับการตรวจสอบกับคำอธิบายประกอบพื้นฐานความจริงในชุดข้อมูลการแกว่งกอล์ฟ เพื่อให้แน่ใจว่าความแข็งแกร่งของแบบจำลองในการจับภาพการเคลื่อนไหวของกีฬาแบบพลวัต
6.1 เมตริกส์การแสดงออก
Mean Squared Error (MSE): ใช้เพื่อวัดความแม่นยำของการทำนายจุดสำคัญเมื่อเทียบกับข้อมูลอ้างอิง
Average Precision (AP): ประเมินผลการแสดงออกโดยรวมของโมเดลการประมาณค่าท่าทาง
เวลาการประมวลผลเฟรม: ทดสอบเพื่อให้แน่ใจว่าระบบเป็นไปตามข้อกำหนดแบบเรียลไทม์ (<10 มิลลิวินาทีต่อเฟรม)
7. บทสรุป
วิธีการจากบนลงล่างโดยใช้ RTMPose-X และ RTMDet-M นำเสนอวิธีการที่มีประสิทธิภาพและแม่นยำสำหรับการประมาณค่าท่าทางแบบเรียลไทม์ในการวิเคราะห์กีฬา โดยเฉพาะอย่างยิ่งสำหรับการวิเคราะห์สวิงกอล์ฟ ด้วยการตรวจจับจุดสำคัญที่แข็งแกร่ง การติดตามตามเวลา และการคำนวณแบบเรียลไทม์ วิธีการนี้มอบข้อมูลเชิงชีววลิทยาที่ละเอียดเกี่ยวกับพลวัตของสวิงกอล์ฟ ช่วยในการปรับปรุงการแสดงออกและการป้องกันการบาดเจ็บ
เอกสารอ้างอิง
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] Dataset ท้าทายด้าน AI:
[] MS Coco Dataset:
[7] Crowdpose Dataset: https://arxiv.org/pdf/1812.00324
[] MPII Dataset:
[] sub-JHMBD Dataset:
[] Halpe Dataset:
[] PoseTrack18 Dataset:
Object365 Database: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
อัปเดตครั้งล่าสุด: 2025-03-05 | ดูบนเว็บไซต์การสนับสนุนอย่างเป็นทางการ