Βελτίωση της Ανίχνευσης Κίνησης χωρίς Δείκτες στην Αιώρηση Γκολφ και Μπέιζμπολ Χρησιμοποιώντας RTMPose και RTMDet: Μια Προσέγγιση Από Πάνω Προς Τα Κάτω
Βελτίωση της Ανίχνευσης Κίνησης χωρίς Δείκτες στην Αιώρηση Γκολφ και Μπέιζμπολ Χρησιμοποιώντας RTMPose και RTMDet: Μια Προσέγγιση Από Πάνω Προς Τα Κάτω
Περίληψη
Αυτή η τεχνική έκθεση τεκμηριώνει την εφαρμογή του RTMPose και RTMDet για ακριβή και αποδοτική εκτίμηση στάσης σώματος των αιωρήσεων γκολφ και μπέιζμπολ. Αξιοποιώντας τεχνικές τελευταίας γενιάς που έχουν βελτιστοποιηθεί για απόδοση σε πραγματικό χρόνο, αυτά τα μοντέλα επιτρέπουν λεπτομερή παρακολούθηση των κινήσεων του σώματος κατά τη διάρκεια αιωρήσεων γκολφ και μπέιζμπολ—ένα κρίσιμο χαρακτηριστικό για τη βελτίωση της απόδοσης στην αθλητική ανάλυση. Επισημαίνουμε τα πλεονεκτήματα μιας προσέγγισης από πάνω προς τα κάτω, όπου ένας έτοιμος ανιχνευτής RTMDet αναγνωρίζει τον παίκτη γκολφ και μπέιζμπολ σε κάθε πλαίσιο, και το RTMPose εκτιμά τις θέσεις των κύριων αρθρώσεων του σώματος.
1. Εισαγωγή
Η εκτίμηση στάσης σώματος έχει γίνει κρίσιμη στην ανάλυση της αθλητικής απόδοσης, επιτρέποντας την ακριβή παρακολούθηση των κινήσεων των αθλητών. Στο γκολφ και το μπέιζμπολ, η σύλληψη των βιομηχανικών δεδομένων της αιώρησης ενός παίκτη παρέχει πολύτιμες πληροφορίες σχετικά με τη δυναμική της αιώρησης, βοηθώντας επαγγελματίες και ερασιτέχνες να τελειοποιήσουν τις τεχνικές τους. Οι παραδοσιακές μέθοδοι εκτίμησης στάσης σώματος 2D αντιμετωπίζουν συχνά προκλήσεις λανθάνουσας κατάστασης και ακρίβειας, ειδικά σε σενάρια σε πραγματικό χρόνο. Αυτή η εργασία προτείνει μια λύση χρησιμοποιώντας RTMPose και RTMDet μέσα του πλαισίου MMPose για λεπτομερή εκτίμηση στάσης σώματος κατά τη διάρκεια αιωρήσεων γκολφ και μπέιζμπολ.
2. Υπόβαθρο
Η πολυπλοκότητα των αιωρήσεων γκολφ και μπέιζμπολ απαιτεί ακριβή μέτρηση των κινήσεων του σώματος. Οι υπάρχουσες μέθοδοι εκτίμησης στάσης σώματος ενδέχεται να μην παρέχουν την απαραίτητη ακρίβεια για απόδοση σε πραγματικό χρόνο. Οι προόδοι στη βαθιά μάθηση και στην όραση υπολογιστών έχουν εισαγάγει μοντέλα όπως το RTMPose και το RTMDet, τα οποία προσφέρουν βελτιωμένη ακρίβεια και αποδοτικότητα.
3. Προσέγγιση από πάνω προς τα κάτω με RTMdet και RTMpose
–εισαγάγετε εικόνα–
3. RTMPose: Ένα Μοντέλο Εκτίμησης Στάσης Σώματος Υψηλής Απόδοσης
Το RTMPose [1] είναι σχεδιασμένο για εκτίμηση στάσης σώματος υψηλής απόδοσης σε πραγματικό χρόνο, βελτιστοποιημένο να λειτουργεί αποδοτικά σε περιορισμένο υλικό.
Κύρια Χαρακτηριστικά:
Αρχιτεκτονική Μοντέλου και Αποδοτικότητα: Το RTMpose χρησιμοποιεί το CSPNeXt ως την κύρια δομή του [1, 2], ισορροπώντας ταχύτητα και ακρίβεια. Το CSPNeXt είναι βελτιστοποιημένο για εργασίες πυκνής πρόβλεψης όπως η εκτίμηση στάσης σώματος και η ανίχνευση αντικειμένου, παρέχοντας υψηλή ανάλυση και ακρίβεια διατηρώντας υπολογιστική αποδοτικότητα.
Πρόβλεψη Σημείων Κλειδιών: Χρησιμοποιεί έναν αλγόριθμο βασισμένο σε SimCC [1, 3], αντιμετωπίζοντας τις οριζόντιες και κατακόρυφες θέσεις των σημείων κλειδιών ως ξεχωριστές εργασίες ταξινόμησης. Αυτή η συμπαγής αναπαράσταση μειώνει το υπολογιστικό φορτίο και είναι κατάλληλη για ανάπτυξη σε διάφορες συσκευές.
4. RTMDet: Η Δομή Ανίχνευσης
Το RTMDet [4] ενεργεί ως ο ανιχνευτής που προηγείται του RTMPose στη σωλήνωση από πάνω προς τα κάτω, αναγνωρίζοντας τη θέση του παίκτη γκολφ ή μπέιζμπολ σε κάθε πλαίσιο.
Κύρια Χαρακτηριστικά:
Αρχιτεκτονική Μοντέλου και Αποδοτικότητα: Το RTMDet χρησιμοποιεί μια τροποποιημένη έκδοση του CSPDarkNet [5] πιο εκπαιδεύσιμη και ακριβή από πολλά από τα μοντέλα YOLO. Η τροποποιημένη έκδοση αξιοποιεί εξαιρετικά κυρτές συνελίξεις για να ισορροπήσει την πολυπλοκότητα και την ταχύτητα και είναι αποδοτική τόσο στο GPU όσο και στο CPU. Είναι ιδανική για εφαρμογές σε πραγματικό χρόνο όπως η παρακολούθηση της αθλητικής απόδοσης.
Ευελιξία: Χειρίζεται διάφορες εργασίες ανίχνευσης αντικειμένων, συμπεριλαμβανομένης της κατάτμησης παρουσίας και της περιστρεφόμενης ανίχνευσης αντικειμένου. Διασφαλίζει ακριβή εντοπισμό του παίκτη, ακόμα και σε δυναμικές σκηνές.
5. Πλεονεκτήματα της χρήσης RTMDet και RTMPose στην Ανάλυση Αιώρησης Γκολφ και Μπέιζμπολ
5.1 Υψηλότερη Ακρίβεια σε Σκηνές χωρίς Συνωστισμό
Σε τυπικές ρυθμίσεις γκολφ/μπέιζμπολ με λίγα άτομα στο πλαίσιο, το RTMDet απομονώνει τον παίκτη γκολφ/μπέιζμπολ, επιτρέποντας στο RTMPose να επεξεργαστεί κάθε αναγνωρισμένο άτομο με υψηλή ακρίβεια. Αυτό αποφεύγει την πολυπλοκότητα των μεθόδων από κάτω προς τα πάνω που επεξεργάζονται όλα τα σημεία κλειδιά για όλα τα άτομα στο πλαίσιο ταυτόχρονα. Η προσέγγιση από πάνω προς τα κάτω μπορεί επίσης να περιλαμβάνει έναν αλγόριθμο μετα-επεξεργασίας του RTMdet που αναγνωρίζει το σωστό άτομο (π.χ. παίκτης γκολφ ή μπέιζμπολ) πριν πραγματοποιήσει την εκτίμηση στάσης σώματος. Επιπλέον, το RTMPose έχει προ-εκπαιδευθεί σε διευρυμένο υλικό εικόνας που περιέχει
5.2 Αποδοτικός Υπολογισμός και Απόδοση σε Πραγματικό Χρόνο
Η χρήση ελαφρών μοντέλων, όπως το RTMdet και το RTMpose, διατηρεί χαμηλή λανθάνουσα κατάσταση, επιτρέποντας την ανάλυση αιώρησης σε πραγματικό χρόνο σε καταναλωτικό υλικό. Αυτό είναι ιδιαίτερα χρήσιμο για την παροχή άμεσης ανατροφοδότησης ζωντανής μετάδοσης κατά τη διάρκεια περιόδων προπόνησης ή εκπαίδευσης. Το σύστημα ανίχνευσης κίνησης χωρίς δείκτες Swing Catalyst είναι ένα από τα λίγα στούντιο συστήματα που παρέχουν ανατροφοδότηση ανίχνευσης κίνησης ζωντανής μετάδοσης στους παίκτες γκολφ και μπέιζμπολ.
5.3 Λεπτομερής Ανάλυση Σημείων Κλειδιών
Το RTMPose ανιχνεύει μια διαμόρφωση 26 σημείων κλειδιών σώματος [6] που εμφανίζονται στην εικόνα 1 παρακάτω, απαραίτητη για την ανάλυση της κινηματικής των αιωρήσεων γκολφ και μπέιζμπολ. Το Halpe26 είναι μια διευρυμένη διαμόρφωση που περιλαμβάνει πρόσθετα σημεία κλειδιών στα πόδια και το κεφάλι σε σύγκριση με την πιο τυπική διαμόρφωση Coco με 17 σημεία κλειδιά.
–Εισαγάγετε Εικόνα–
6. Μεθοδολογία για Ανίχνευση Κίνησης χωρίς Δείκτες στην Αιώρηση Γκολφ και Μπέιζμπολ
6.1 Φάση Ανίχνευσης: RTMDet
Εφαρμόζοντας σε πλαίσια βίντεο ενός παίκτη γκολφ ή μπέιζμπολ, το RTMDet δημιουργεί περιοδικά πλαίσια γύρω από τον παίκτη, τα οποία μεταβιβάζονται στο RTMPose. Αυτό εστιάζει την εκτίμηση στάσης σώματος σε σχετικές περιοχές εικόνας, μειώνοντας το υπολογιστικό φορτίο.
–Εισαγάγετε Εικόνα–
6.2 Φάση Εκτίμησης Στάσης Σώματος: RTMPose
Το RTMPose εκτιμά τις θέσεις των σημείων κλειδιών στο περιοδικό πλαίσιο. Κρίσιμες αρθρώσεις για την ανάλυση αιώρησης γκολφ και μπέιζμπολ περιλαμβάνουν τους καρπούς, τους αγκώνες, τους ώμους, τα ισχία και τα γόνατα. Αυτά τα σημεία κλειδιά αξιολογούν τις γωνίες και τις θέσεις του σώματος κατά τις φάσεις της αιώρησης: οπισθοσύρσιμη, κάθοδος και συνέχεια σαμπό.
–Εισαγάγετε Εικόνα–
6.3 Μετρήσεις Απόδοσης
Η γενική απόδοση του RTMPose μετράται χρησιμοποιώντας μετρήσεις όπως η Μέση Ακρίβεια (AP) σε σημεία αναφοράς εκτίμησης στάσης σώματος όπως το MS COCO. Παρακάτω είναι η απόδοση των καλύτερα κατατάξεων μοντέλων στο συνήθως χρησιμοποιούμενο σημείο αναφοράς Coco. Στο σύνολο δεδομένων MS COCO val, το RTMPose-X είναι το μοντέλο με την καλύτερη απόδοση ικανό να παρέχει ανατροφοδότηση σε πραγματικό χρόνο και επιτυγχάνει έως 75,8% AP με ρυθμούς πλαισίων που υπερβαίνουν ?? FPS σε καταναλωτικό GPU, καθιστώντας το κατάλληλο για ανάλυση αθλημάτων υψηλής ταχύτητας.
Κατάταξη Μοντέλο Ανάλυση Μέγεθος/παράμετροι (Εκατ.) AP Συμπέρασμα σε πραγματικό χρόνο
1 Sapiens-2B 1024x768 2000 82,2 Όχι
2 Sapiens-1B 1024x768 1000 82,1 Όχι
3 Sapiens-0.6B 1024x768 600 81,2 Όχι
4 Sapiens-0.3B 1024x768 300 79.6 Όχι
5 VitPose-H 256x192 632 79.4 Όχι
6 RTMPose-X 384x288 49 78.8 Ναι
7 VitPose-L 256x192 307 78.6 Όχι
8 RTMPose-L 384x288 28 78.3 Ναι
9 HRFormer 256x192 43 77.2 Όχι
10 HRNet-UDP 384x288 64 77.2 Ναι
11 VitPose-B 256x192 86 77.0 Ναι
12 RTMPose-L 256x198 28 76.7 Ναι
13 RTMPose-M 384x288 14 76.6 Ναι
14 HRNet 384x288 64 76.3 Ναι
15 VitPose-S 256x192 43 75.8 Ναι
16 RTMPose-M 256x192 14 74.9 Ναι
17 SimpleBaseline 256x192 60 73.5 Ναι
18 FastPose 256x192 79 73.3 Ναι
7. Εφαρμογή στην Ανάλυση της Αιώρησης Γκολφ
Εφαρμόζοντας το πλαίσιο RTMPose-X και RTMDet-M:
Παρακολούθηση Κινήσεων Αρθρώσεων Καρέ-προς-Καρέ: Παρέχει ολοκληρωμένα δεδομένα για την ανάλυση κάθε φάσης της αιώρησης.
Παροχή Σχολίων σε Πραγματικό Χρόνο: Ενεργοποιεί άμεσες γνώσεις σχετικά με τη στάση και τη μορφή της αιώρησης κατά τις συνεδρίες εκπαίδευσης.
Σύγκριση με Ιδανική Μηχανική: Επιτρέπει τη σύγκριση με ιδανική κινηματική αιώρησης για τον εντοπισμό τομέων βελτίωσης.
8. Συμπέρασμα
Η ολοκλήρωση του RTMPose-X και RTMDet-M προσφέρει μια ισχυρή λύση για την ανάλυση της αιώρησης γκολφ σε πραγματικό χρόνο. Με υψηλή ακρίβεια, χαμηλή καθυστέρηση και συμβατότητα σε διάφορες πλατφόρμες υλικού, αυτή η προσέγγιση από πάνω προς τα κάτω παρέχει λεπτομερή γνώσεις στη μηχανική της αιώρησης. Έχει σημαντικό δυναμικό να βοηθήσει τόσο τους ερασιτέχνες όσο και τους επαγγελματίες παίκτες γκολφ στη βελτίωση της απόδοσής τους.
9. Μελλοντικές Εργασίες
Οι μελλοντικές εξελίξεις θα μπορούσαν να περιλαμβάνουν:
Ολοκλήρωση Αλγορίθμων Μηχανικής Μάθησης: Για παροχή προβλεπτικής ανάλυσης και υποδείξεων προσαρμογών για τη βελτίωση της αποδοτικότητας της αιώρησης.
Επέκταση σε Σενάρια Πολλών Ατόμων: Βελτίωση της εφαρμογής σε ομαδικά αθλήματα ή περιβάλλοντα ομαδικής εκπαίδευσης.
Ανάπτυξη Φιλικής προς το Χρήστη Διεπαφής: Δημιουργία εφαρμογών ή εργαλείων που κάνουν αυτήν την τεχνολογία προσβάσιμη σε προπονητές και αθλητές χωρίς τεχνική τεχνογνωσία.
Παράρτημα
Λεπτομερής Μεθοδολογία: Προσέγγιση Από Πάνω Προς Τα Κάτω για την Εκτίμηση Στάσης Αιώρησης Γκολφ Χρησιμοποιώντας RTMPose-X και RTMDet-M
Επισκόπηση
Η μεθοδολογία που περιγράφεται εδώ περιγράφει τα λεπτομερή βήματα που εμπλέκονται σε μια προσέγγιση από πάνω προς τα κάτω για την εκτίμηση της στάσης σώματος σε πραγματικό χρόνο κατά την αιώρηση γκολφ και μπέιζμπολ, αξιοποιώντας τα πλεονεκτήματα του RTMPose για τοπικοποίηση Σημείων Κλειδιά και του RTMDet για Ανίχνευση Αντικειμένου. Η διαδικασία χωρίζεται σε πολλά στάδια: ανίχνευση, τοπικοποίηση Σημείων Κλειδιά και Μετα-Επεξεργασία, καθένα συνεισφέρει στην ακριβή και αποδοτική εκτίμηση των αρθρώσεων του σώματος σε μια αιώρηση γκολφ για βιομηχανική ανάλυση.
–Εισαγωγή σχήματος–
1. Φάση Ανίχνευσης: Πραγματικής Ταχύτητας Εντοπισμός Θέσης με RTMDet-M
Το πρώτο στάδιο της προσέγγισης από πάνω προς τα κάτω περιλαμβάνει την ανίχνευση του παίκτη γκολφ σε κάθε καρέ του βίντεο. Σε σενάρια αθλημάτων, ιδιαίτερα γκολφ, η σκηνή συνήθως αποτελείται από έναν μόνο παίκτη, απλοποιώντας την εργασία ανίχνευσης σε σύγκριση με πλήθη.
1.1 Αρχιτεκτονική Μοντέλου
Το RTMDet-M χρησιμοποιείται ως ανιχνευτής αντικειμένου στη διοχέτευση. Χρησιμοποιεί ένα κατά συνέλιξη νευρωνικό δίκτυο (CNN) backbone, συγκεκριμένα το backbone CSPNeXt, σχεδιασμένο να βελτιστοποιήσει την απόδοση Ανίχνευσης Αντικειμένου σε πραγματικό χρόνο διατηρώντας ισορροπία μεταξύ ταχύτητας και ακρίβειας. Τα κύρια χαρακτηριστικά της αρχιτεκτονικής περιλαμβάνουν:
Συνελίξεις βάθους μεγάλου πυρήνα: Αυτές χρησιμοποιούνται στα στρώματα backbone και neck, αυξάνοντας το δέκτη πεδίο διατηρώντας χαμηλό υπολογιστικό κόστος.
Δίκτυο Πυραμίδας Χαρακτηριστικών (FPN): Μια τεχνική εξαγωγής χαρακτηριστικών πολλαπλής κλίμακας που επιτρέπει την ανίχνευση αντικειμένων σε διάφορες κλίμακες, διασφαλίζοντας ότι ο παίκτης γκολφ μπορεί να ανιχνευθεί ανεξάρτητα από την απόστασή του από την κάμερα.
1.2 Δυναμική Ανάθεση Ετικετών
Το RTMDet-M αξιοποιεί μια δυναμική στρατηγική ανάθεσης ετικετών που βελτιώνει την ακρίβεια ανίχνευσης ανατίθεται μαλακές ετικέτες σε αντικείμενα με βάση ένα συνδυασμό ταξινόμησης και απώλειας τοπικοποίησης. Η ανάθεση ετικετών διέπεται από τον αλγόριθμο SimOTA, ο οποίος δυναμικά επιλέγει θετικά δείγματα με βάση την πιθανότητά τους να ταιριάζουν με το αντικείμενο εδάφους. Αυτή η μέθοδος διασφαλίζει ισχυρή ανίχνευση σε διακύμανση φωτισμού και περιβαλλοντικών συνθηκών που συχνά συναντώνται σε εξωτερικές σκηνές γκολφ.
1.3 Πρόβλεψη Περιοδικού Πλαισίου
Ο ανιχνευτής εξάγει Περιοδικά Πλαίσια που περικλείουν τον παίκτη γκολφ σε κάθε Καρέ. Αυτά τα Περιοδικά Πλαίσια παρέχουν χωρικούς περιορισμούς εντός των οποίων θα λειτουργεί το μοντέλο εκτίμησης Στάσης, μειώνοντας το υπολογιστικό φορτίο της επακόλουθης φάσης εκτίμησης Στάσης εστιάζοντας μόνο στις σχετικές περιοχές του Καρέ. Σε αυτό το πλαίσιο, το RTMDet-M δημιουργεί Περιοδικά Πλαίσια σε πραγματικό χρόνο με περισσότερα από 300 FPS σε υψηλής απόδοσης υλικό, διασφαλίζοντας ότι μπορεί να αντιμετωπίσει τη γρήγορη δυναμική μιας αιώρησης γκολφ.
1.4 Non-Maximum Suppression Ατόμου (NMS)
Σε σενάρια πολλών ατόμων (αν και σπάνια στην ανάλυση αιώρησης γκολφ), το RTMDet-M ενσωματώνει έναν αλγόριθμο Non-Maximum Suppression (NMS) Στάσης που εξαλείφει περιττές ανιχνεύσεις Σημείων Κλειδιών, διασφαλίζοντας ότι διατηρούνται μόνο οι πιο αυτοπεποίθητες ανιχνεύσεις για όλους. Αυτό είναι κρίσιμο σε περιπτώσεις όπου τα επικαλυπτόμενα Περιοδικά Πλαίσια ενδέχεται να ανιχνευθούν σε συνωστισμένες σκηνές ή ακολουθίες βίντεο.
1.5 Dataset Εκπαίδευσης και Απόδοση
Το RTMDet-M εκπαιδεύεται σε μια εργασία δυαδικής ταξινόμησης στις περιπτώσεις ατόμων στο Dataset Object356.
2. Φάση Εκτίμησης Στάσης: Εντοπισμός Σημείων Κλειδιών RTMPose-X
Αφού καθοριστεί το Περιοδικό Πλαίσιο για τον παίκτη γκολφ, η επόμενη φάση περιλαμβάνει την εκτίμηση της ακριβούς θέσης των βασικών Αρθρώσεων σώματος εντός αυτής της περιοχής. Το RTMPose-X, ένα μοντέλο εκτίμησης Στάσης υψηλής απόδοσης, χρησιμοποιείται για αυτό το σκοπό.
2.1 Εντοπισμός Σημείων Κλειδιών Βάσει SimCC
Το RTMPose-X χρησιμοποιεί τον αλγόριθμο SimCC (Simple Coordinate Classification), ο οποίος αντιμετωπίζει τον εντοπισμό Σημείων Κλειδιών ως πρόβλημα ταξινόμησης. Σε αντίθεση με τις παραδοσιακές μεθόδους βάσει Χάρτη Θερμότητας, το SimCC διαιρεί τις x και y Συντεταγμένες κάθε Σημείου Κλειδί σε κάδους και ταξινομεί τον ακριβή κάδο όπου βρίσκεται κάθε Σημείο Κλειδί. Αυτή η προσέγγιση μειώνει σημαντικά την υπολογιστική πολυπλοκότητα και βελτιώνει την ταχύτητα συμπερασμάτων, διατηρώντας παράλληλα υψηλή ακρίβεια για εργασίες εκτίμησης ανθρώπινης Στάσης.
2.2 CSPNeXt Backbone
Όπως και το RTMDet-M, το RTMPose-X χρησιμοποιεί επίσης το CSPNeXt backbone, το οποίο είναι προσαρμοσμένο για εργασίες πυκνής πρόβλεψης, όπως η εκτίμηση Στάσης. Το CSPNeXt backbone είναι ευνοϊκό σε αυτό το σενάριο για τους ακόλουθους λόγους:
Ελαφριά αρχιτεκτονική: Η αρχιτεκτονική του μοντέλου είναι σχεδιασμένη για να ελαχιστοποιήσει τον αριθμό των παραμέτρων, ενώ μεγιστοποιεί τη ρυθμαπόδοση, καθιστώντας το ιδανικό για εφαρμογές πραγματικού χρόνου.
Αποδοτική εξαγωγή χαρακτηριστικών: Τα στρώματα εξαγωγής χαρακτηριστικών του CSPNeXt είναι βελτιστοποιημένα για την επεξεργασία εικόνων υψηλής ανάλυσης, η οποία είναι κρίσιμη για τον εντοπισμό μικρών λεπτομερειών σε γρήγορα κινούμενα τμήματα σώματος κατά τη διάρκεια μιας αιώρησης γκολφ, όπως καρποί, αγκώνες και γόνατα.
2.3 Αναπαράσταση Σημείων Κλειδιών
Το RTMPose-X εξάγει τοποθεσίες Σημείων Κλειδιών για όλα τα σχετικά τμήματα σώματος, περιλαμβάνοντας:
Αρθρώσεις Άνω Σώματος: Ώμοι, Αγκώνες, Καρποί και Λαιμός
Αρθρώσεις Κάτω Σώματος: Ισχία, Γόνατα και Σφυρά
Πρόσθετες Αρθρώσεις: Κεφάλι, Σπονδυλική Στήλη και άλλα βασικά σημεία σχετικά με την ανάλυση αιώρησης
Η ανάλυση 384x288 για τις εικόνες εισόδου διασφαλίζει ότι ακόμη και λεπτές κινήσεις στις Αρθρώσεις μπορούν να ληφθούν με ακρίβεια, ενώ παράλληλα διατηρεί την ικανότητα του συστήματος να λειτουργεί σε πραγματικό χρόνο.
2.4 RTMPose προ-επεξεργασία: Αμερόληπτη Επεξεργασία Δεδομένων (UDP)
Πριν η περικομμένη εικόνα εισαχθεί στο μοντέλο RTMpose, εκτελείται ένα βήμα Αμερόληπτης Επεξεργασίας Δεδομένων (UDP). Το UDP αντιμετωπίζει κρίσιμες μεροληψίες στην επεξεργασία δεδομένων του RTMpose κατά την εκπαίδευση και τον έλεγχο, ιδιαίτερα στους Μετασχηματισμούς Συστήματος Συντεταγμένων και μορφοποίησης Σημείων Κλειδιών. Σε συμβατικές αγωγούς εκτίμησης ανθρώπινης Στάσης, τυποποιημένες λειτουργίες όπως το αντιστροφή και η αλλαγή μεγέθους συχνά κακοευθυγραμμίζουν τα αποτελέσματα, ιδιαίτερα λόγω των μετασχηματισμών βάσει pixel, οι οποίοι οδηγούν σε απώλεια ακρίβειας και μη ευθυγράμμιση αντιστρεφόμενων εικόνων. Το UDP διορθώνει αυτά τα προβλήματα δημιουργώντας έναν αμερόληπτο Μετασχηματισμό Συστήματος Συντεταγμένων, διατηρώντας σημασιολογική ευθυγράμμιση σε διάφορους χώρους Συντεταγμένων κατά τις βασικές λειτουργίες (περικοπή, αλλαγή μεγέθους, περιστροφή, αντιστροφή). Το UDP εισάγει επίσης αμερόληπτο μετασχηματισμό μορφοποίησης Σημείων Κλειδιών κωδικοποιώντας Σημεία Κλειδιά σε Χάρτες Θερμότητας χωρίς να εισάγει θέσης μεροληψία, περαιτέρω βελτιώνοντας μέσω μιας διαδικασίας αποκωδικοποίησης ενημερωμένης κατανομής Gauss. Αυτή η προσέγγιση επεξεργασίας δεδομένων βελτιώνει συστηματικά την απόδοση του μοντέλου, όπως φαίνεται σε εκτεταμένες δοκιμές σε COCO και CrowdPose datasets, όπου επιτεύχθηκε βελτιωμένη ακρίβεια και μειωμένη λανθάνουσα κατάσταση συμπερασμάτων σε μοντέλα από πάνω προς τα κάτω και από κάτω προς τα πάνω [Ref].
3. Μετα-Επεξεργασία και Βελτίωση Στάσης
Μόλις προβλεφθούν τα Σημεία Κλειδιά, εφαρμόζονται αρκετά βήματα μετα-επεξεργασίας για να γίνει εργασία της εκτίμησης Στάσης και να διασφαλιστεί η σταθερότητα σε όλα τα Πλαίσια.
3.1 Εξομάλυνση Στάσης
Οι αιωρήσεις γκολφ περιλαμβάνουν γρήγορη κίνηση, η οποία μπορεί να εισαγάγει θόρυβο ή διακυμάνσεις στις εκτιμώμενες θέσεις Σημείων Κλειδιών σε όλα τα Πλαίσια. Για να μετριάσουμε αυτό, εφαρμόζεται ένα One-Euro Filter για να εξομαλυνθούν οι τροχιές Σημείων Κλειδιών στο χρόνο, διασφαλίζοντας ότι μικρές, μη-φυσικές διακυμάνσεις στις προβλέψεις Σημείων Κλειδιών εξαλείφονται. Το One-Euro Filter λειτουργεί προσαρμόζοντας δυναμικά το εύρος ζώνης του φίλτρου βάσει της ταχύτητας της κίνησης, η οποία είναι ιδανική για σενάρια όπως οι αιωρήσεις γκολφ, όπου η κίνηση διαφέρει σημαντικά σε ταχύτητα σε διάφορες φάσεις (Οπισθοσύρσιμη, Κάθοδος και Συνέχεια Σαμπό).
3.2 Μηχανισμός Παράλειψης Καρέ
Για περαιτέρω βελτιστοποίηση, εφαρμόζεται ένας μηχανισμός παράλειψης Καρέ, όπου η ανίχνευση εκτελείται μόνο σε κύρια Πλαίσια και η εκτίμηση Στάσης παρεμβάλλεται για τα ενδιάμεσα Πλαίσια. Αυτό μειώνει δραστικά το υπολογιστικό φορτίο χωρίς να θυσιάζει την ακρίβεια σε σενάρια με περιορισμένη κίνηση μεταξύ Πλαισίων, όπως η ανάλυση σε αργή κίνηση μιας αιώρησης γκολφ.
4. Χρονική Παρακολούθηση και Συνέπεια Ακολουθίας
Δεδομένου ότι οι αιωρήσεις γκολφ είναι εγγενώς διαδοχικές, η διατήρηση της χρονικής συνέπειας στην εκτίμηση Στάσης είναι ζωτικής σημασίας. Το RTMPose-X αντιμετωπίζει αυτό μέσω τεχνικών χρονικής παρακολούθησης, οι οποίες διασφαλίζουν ότι οι προβλέψεις Σημείων Κλειδιών είναι συνεπείς σε όλα τα διαδοχικά Πλαίσια. Αυτό περιλαμβάνει την παρακολούθηση θέσεων Σημείων Κλειδιών στο χρόνο και τη διασφάλιση ότι οι τροχιές τους ακολουθούν ρεαλιστικά σχέδια κίνησης βάσει βιομηχανικών περιορισμών.
4.1 Ανάλυση Ταχύτητας και Επιτάχυνσης Σημείων Κλειδιών
Εκτός από την παρακολούθηση θέσεων Σημείων Κλειδιών, το RTMPose-X εκτιμά επίσης την Ταχύτητα και Επιτάχυνση κάθε Σημείου Κλειδί. Αυτές οι πληροφορίες είναι κρίσιμες για την ανάλυση της δυναμικής μιας αιώρησης γκολφ, παρέχοντας διορατικότητα σε βασικές Μετρήσεις απόδοσης, όπως:
Ταχύτητα Περιστροφής: Υπολογίζεται βάσει της Ταχύτητας του καρπού κατά τη διάρκεια της Κάθοδος.
Περιστροφή Ισχίου: Αναλύεται μέσω της Περιστροφικής Ταχύτητας των Αρθρώσεων Ισχίου.
Τροχιά Σκλάβας και ταχύτητα κεφαλιού: Συναγόμενα έμμεσα από τροχιές καρπών και αγκώνων.
Αυτές οι Μετρήσεις μπορούν να συγκριθούν με επαγγελματικά σημεία αναφοράς για να προσφέρουν ανάδραση σχετικά με τη μηχανική αιώρησης ενός παίκτη.
5. Συμπέρασμα και Απόδοση Πραγματικού Χρόνου
Ολόκληρη η Προσέγγιση Από Πάνω Προς Τα Κάτω είναι βελτιστοποιημένη για απόδοση πραγματικού χρόνου, επιτρέποντας εκτίμηση Στάσης με περισσότερα από 90 FPS σε σύγχρονες GPU. Η χρήση εξαιρετικά αποδοτικών αρχιτεκτονικών μοντέλων (CSPNeXt) και γρήγορων τεχνικών συμπερασμάτων (SimCC) διασφαλίζει ότι το σύστημα μπορεί να χειριστεί εισαγωγή βίντεο υψηλού Ρυθμού Πλαισίων, καθιστώντας το κατάλληλο για ανάδραση πραγματικού χρόνου κατά τη διάρκεια συνεδριών εκπαίδευσης.
6. Αξιολόγηση και Επικύρωση
Τα μοντέλα RTMPose-X και RTMDet-M αξιολογούνται σε τυποποιημένα datasets, όπως COCO και MPII, εμφανίζοντας ισχυρή απόδοση με μέσο ακρίβεια (AP) 75,8% στο COCO dataset για Σημεία Κλειδιά σώματος. Αυτά τα αποτελέσματα επικυρώνονται σε σχέση με σχολιασμένα στοιχεία αναφοράς σε datasets αιώρησης γκολφ, διασφαλίζοντας την ροβαστικότητα του μοντέλου στην καταγραφή δυναμικών αθλητικών κινήσεων.
6.1 Μετρήσεις Απόδοσης
Mean Squared Error (MSE): Χρησιμοποιείται για να ποσοτικοποιήσει την ακρίβεια των προβλέψεων Σημείων Κλειδιά έναντι των σχολιασμένων δεδομένων αναφοράς.
Average Precision (AP): Αξιολογεί τη συνολική απόδοση του μοντέλου Εκτίμησης Στάσης.
Χρόνος Επεξεργασίας Πλαισίου: Συγκριτικά δεδομένα για να διασφαλιστεί ότι το σύστημα πληροί τις απαιτήσεις πραγματικού χρόνου (<10 ms ανά Καρέ).
7. Συμπέρασμα
Η προσέγγιση Από Πάνω Προς Τα Κάτω χρησιμοποιώντας RTMPose-X και RTMDet-M παρέχει μια αποδοτική και ακριβή μέθοδο για εκτίμηση Στάσης σε πραγματικό χρόνο στην ανάλυση αθλητικής απόδοσης, ειδικά για ανάλυση αιώρησης γκολφ. Με ισχυρή ανίχνευση Σημείων Κλειδιά, χρονικό παρακολούθηση και συμπέρασμα σε πραγματικό χρόνο, αυτή η μεθοδολογία προσφέρει λεπτομερή βιομηχανικές πληροφορίες για τη δυναμική της αιώρησης γκολφ, βοηθώντας στη βελτίωση της απόδοσης και την πρόληψη τραυματισμών.
Αναφορές
[1] RTMpose https://arxiv.org/pdf/2303.07399
[2] CSPNeXt https://www.sciencedirect.com/science/article/pii/S0952197624000447
[3] SIMCC https://arxiv.org/abs/2107.03332
[4] RTMdet https://arxiv.org/pdf/2212.07784
[5] CSPDarkNet
[6] Halpe26
[] Dataset AI challenge:
[] MS Coco Dataset:
[7] Dataset Crowdpose: https://arxiv.org/pdf/1812.00324
[] Dataset MPII:
[] Dataset sub-JHMBD:
[] Dataset Halpe:
[] Dataset PoseTrack18:
Database Object365: https://openaccess.thecvf.com/content_ICCV_2019/papers/Shao_Objects365_A_Large-Scale_High-Quality_Dataset_for_Object_Detection_ICCV_2019_paper.pdf
Τελευταία ενημέρωση: 2025-03-05 | Προβολή στην επίσημη σελίδα υποστήριξης