Building and Road Detection from Remote Sensing Images Based on Weights Adaptive Multi-Teacher Collaborative Distillation Using a Fused Knowledge

Από RemoteSensing Wiki

Ελεύθερη μετάφραση τίτλου:Ανίχνευση κτιρίων και οδών από εικόνες τηλεπισκόπησης με βάση την προσαρμοστική πολυδιδασκαλία με πολλαπλούς εκπαιδευτές, χρησιμοποιώντας συγκεντρωτική γνώση.

Συγγραφείς:Ziyi Chen , Liai Deng , Jing Gou, Cheng Wang , Jonathan Li , Dilong Li

Πηγή:https://www.sciencedirect.com/science/article/pii/S1569843223003461

Εισαγωγή:

Εισαγωγικά στο άρθρο αυτό εντοπίζονται οι πρόοδοι στα νευρωνικά δίκτυα σε διάφορους τομείς όπως η κατηγοριοποίηση εικόνων, η ανίχνευση αντικειμένων, η ταυτοποίηση προσώπων, η σημασιολογική τμηματοποίηση εικόνων και η ανάκτηση εικόνων. Τονίζει την πρακτική σημασία της σημασιολογικής τμηματοποίησης εικόνων, ειδικά στην επεξεργασία εικόνων από τηλεπισκόπηση. Οι τηλεπισκοπικές εικόνες είναι ζωτικής σημασίας για την παρακολούθηση και την παρατήρηση της επιφάνειας της Γης, και η εξαγωγή πληροφοριών όπως κτίρια και δρόμοι από αυτές τις εικόνες είναι άκρως σημαντική για τον αστικό σχεδιασμό, την εκτίμηση πληθυσμού, τη διαχείριση της κυκλοφορίας, την ασφάλεια, τη διαχείριση φυσικών καταστροφών, τη διαχείριση πόρων και τον σχεδιασμό υποδομών. Στην εισαγωγή επίσης υπογραμμίζονται οι προκλήσεις που αντιμετωπίζουν τα μοντέλα βαθιάς μάθησης που χρησιμοποιούνται στην εξαγωγή εικόνων από τηλεπισκόπηση. Αυτά τα μοντέλα, παρόλο που είναι ισχυρά, έχουν έναν μεγάλο αριθμό παραμέτρων, κάνοντάς τα υπολογιστικά επαχθή και ακατάλληλα για άμεση εφαρμογή σε δορυφορικές και edge computing συσκευές. Η εκπαίδευση γνώσης, που περιλαμβάνει την εκπαίδευση ελαφριών μαθησιακών μοντέλων υπό την καθοδήγηση περίπλοκων μοντέλων, παρουσιάζεται ως λύση για να διατηρηθούν μοντέλα μαθητών με υψηλή ακρίβεια και ανθεκτικότητα. Το άρθρο προτείνει μια νέα προσέγγιση για την εκπαίδευση γνώσης για να αντιμετωπίσει τις περιορισμούς των υπαρχόντων μεθόδων. Αυτή η προσέγγιση περιλαμβάνει βάρη προσαρμοστικής πολλαπλής-διδασκαλίας συνεργατικής εκπαίδευσης και χρησιμοποιεί την ανταλλαγή γνώσης χαρακτηριστικών ως καθοδήγηση μεταξύ των διδασκαλικών δικτύων για περιεκτική μεταφορά γνώσης χαρακτηριστικών στο μαθησιακό μοντέλο. Αυτή η μέθοδος στοχεύει στην ενίσχυση της ανθεκτικότητας του εκπαιδευμένου μαθησιακού μοντέλου και στη βελτίωση της ικανότητας μάθησης των λεπτομερειών των κρυμμένων στρωμάτων, επιδεικνύοντας κορυφαία απόδοση σε διάφορα σετ δεδομένων.

Εικόνα 1: Ανίχνευση κτιρίων και οδών από εικόνες τηλεπισκόπησης με βάση την προσαρμοστική πολυδιδασκαλία με πολλαπλούς εκπαιδευτές, χρησιμοποιώντας συγκεντρωτική γνώση.

Εκπαίδευση γνώσης:

Η ενότητα 2 του άρθρου είναι χωρισμένη σε δύο υποενότητες: 2.1 Knowledge Distillation και 2.2 Object Extraction from Remote Sensing Images. Στην υποενότητα 2.1, η εκπαίδευση γνώσης παρουσιάζεται ως μια τεχνική για τη συμπίεση και την επιτάχυνση των μοντέλων, βελτιώνοντας την απόδοση ελαφρύτερων μοντέλων μαθητών υπό την καθοδήγηση πιο πολύπλοκων μοντέλων δασκάλων. Εισάγεται από τον Hinton το 2014, η τεχνική αυτή συνδυάζει τους μαλακούς στόχους του δικτύου δασκάλου στη συνολική συνάρτηση απώλειας, καθοδηγώντας την εκπαίδευση του συμπαγούς μοντέλου και προωθώντας τη μεταφορά γνώσης. Η εκπαίδευση γνώσης χωρίζεται σε τρεις βασικές κατηγορίες: γνώση βασισμένη σε αποκρίσεις, γνώση βασισμένη σε χαρακτηριστικά και γνώση βασισμένη σε σχέσεις. Η υποενότητα 2.2 επικεντρώνεται στην εξαγωγή αντικειμένων από τηλεπισκοπικές εικόνες, αναλύοντας τις προόδους και τις προκλήσεις στην εξαγωγή δρόμων και κτιρίων. Η ακριβής εξαγωγή αυτών των αντικειμένων είναι κρίσιμη για πολλές εφαρμογές και έχει επιτευχθεί μέσω της εφαρμογής τεχνικών βαθιάς μάθησης. Στην υποενότητα 2.2.1, αναφέρονται διάφορες προσεγγίσεις για την εξαγωγή δρόμων, ενώ η υποενότητα 2.2.2 εστιάζει στην εξαγωγή κτιρίων. Και στις δύο περιπτώσεις, τονίζεται η σημασία των βαθιών νευρωνικών.

Εικόνα 2: Παράδειγμα του συνόλου δεδομένων των οδών της Μασαχουσέτης.

Μεθοδολογία:

Όσον αφορά τη μεθοδολογία της προτεινόμενης τεχνικής για την ανίχνευση κτιρίων και δρόμων από εικόνες τηλεπισκόπησης. Αυτή η ενότητα χωρίζεται σε τέσσερις υποενότητες: 3.1 Knowledge Distillation Based on Multi-Teacher Feature Fusion, 3.2 Multi-Teacher Collaborative Knowledge Distillation, 3.3 Relation-Based Multi-Knowledge Fusion Distillation, και 3.4 The Overall Loss Function. Στην υποενότητα 3.1, εξηγείται πώς το μοντέλο εκμάθησης βασίζεται στη συγχώνευση χαρακτηριστικών από πολλαπλούς δασκάλους, χρησιμοποιώντας ένα μοντέλο παλινδρόμησης βασισμένο σε συνέλιξη για την επίτευξη αποτελεσματικής συγχώνευσης των χαρακτηριστικών πριν καθοδηγήσουν την εκπαίδευση των χαρακτηριστικών στρωμάτων του μαθητικού δικτύου. Η υποενότητα 3.2 περιγράφει την πολλαπλή συνεργατική εκπαίδευση γνώσης, όπου χρησιμοποιείται ένας αλγόριθμος προσαρμοστικής κατανομής βάρους για την αποτελεσματική διανομή των καθοδηγητικών βαρών των δικτύων δασκάλων. Αυτό βοηθά στην αύξηση της ανθεκτικότητας και της ακρίβειας του εκπαιδευμένου μαθητικού δικτύου. Στην υποενότητα 3.3, εισάγεται μια προσέγγιση σύγχυσης γνώσης βασισμένη σε σχέσεις για την εκπαίδευση. Χρησιμοποιείται η Ευκλείδεια απόσταση για την αξιολόγηση της σχέσης συσχέτισης μεταξύ διαφόρων στόχων. Αυτό βοηθά στη βελτίωση της απόδοσης του μαθησιακού μοντέλου μέσω της καλύτερης μεταφοράς της γνώσης των σχέσεων. Τέλος, η υποενότητα 3.4 εξηγεί την συνολική συνάρτηση απώλειας για τη μέθοδο εκπαίδευσης γνώσης, συνδυάζοντας την τακτική απώλεια διασταυρούμενης εντροπίας με τις απώλειες που προκύπτουν από την εκπαίδευση γνώσης, συγχώνευση χαρακτηριστικών και απώλειες που βασίζονται σε σχέσεις. Οι υπερ παράμετροι α, β και γ χρησιμοποιούνται για τον έλεγχο της ισορροπίας μεταξύ της επίδρασης της εκπαίδευσης γνώσης και της τυπικής απώλειας διασταυρούμενης εντροπίας.

Τα πειράματα:

Η Ενότητα 4 του άρθρου είναι αφιερωμένη στα πειράματα που διεξήχθησαν για να αξιολογήσουν την αποτελεσματικότητα της προτεινόμενης μεθοδολογίας. Η ενότητα αυτή αποτελείται από δύο βασικές υποενότητες: 4.1 Προετοιμασία Πειράματος και 4.2 Αποτελέσματα. Στην υποενότητα 4.1, η ερευνητική ομάδα περιγράφει την προετοιμασία των πειραμάτων, η οποία περιλαμβάνει την παρουσίαση των συνόλων δεδομένων που χρησιμοποιήθηκαν, την αρχιτεκτονική του δικτύου, τις μετρικές αξιολόγησης, τις λεπτομέρειες της εκπαίδευσης και τις μεθόδους εκπαίδευσης γνώσης που συγκρίθηκαν. Στην παράγραφο αυτή, αναφέρονται τα διαφορετικά σύνολα δεδομένων που χρησιμοποιήθηκαν, όπως το Massachusetts Roads Dataset, το LRSNY Roads Dataset και το WHU Building Dataset. Στην υποενότητα 4.2, παρουσιάζονται τα αποτελέσματα των πειραμάτων. Συγκεκριμένα, γίνεται λεπτομερής σύγκριση των αποτελεσμάτων του προτεινόμενου μοντέλου με άλλα μοντέλα σε διάφορα σύνολα δεδομένων. Αυτή η σύγκριση δείχνει ότι το προτεινόμενο μοντέλο έχει καλύτερη απόδοση στην ανίχνευση κτιρίων και δρόμων σε σύγκριση με άλλες τεχνικές εκπαίδευσης γνώσης. Τα αποτελέσματα των πειραμάτων επιβεβαιώνουν την υπεροχή της προτεινόμενης τεχνικής πολλαπλής συνεργατικής εκπαίδευσης γνώσης με βάση τα βάρη στην εξαγωγή σημαντικών πληροφοριών από τις εικόνες τηλεπισκόπησης. Αυτό επιτυγχάνεται μέσω της βελτιστοποίησης των βαρών μεταξύ διαφόρων δικτύων δασκάλων και της χρήσης της συγχώνευσης γνώσης βασισμένης σε σχέσεις. Επιπλέον, η συνολική συνάρτηση απώλειας βοηθά στον συνδυασμό των διαφόρων τύπων απώλειας για να επιτευχθεί μια ισορροπημένη και αποτελεσματική εκπαίδευση. Οι ερευνητές επισημαίνουν επίσης τη σημασία των μετρικών αξιολόγησης που χρησιμοποιήθηκαν στα πειράματα, όπως το σκορ IoU (Intersection over Union), την ακρίβεια, την ανάκληση και το σκορ F1. Αυτές οι μετρικές βοηθούν στην κατανόηση του βαθμού στον οποίο το μοντέλο μπορεί να ανιχνεύσει και να ταξινομήσει σωστά τα κτίρια και τους δρόμους σε τηλεπισκοπικές εικόνες. Συνοψίζοντας, η Ενότητα 4 προσφέρει μια λεπτομερή ανάλυση των πειραμάτων και των αποτελεσμάτων, επιβεβαιώνοντας την αποτελεσματικότητα της προτεινόμενης μεθοδολογίας και προσφέροντας σημαντικές πληροφορίες για τις μελλοντικές ερευνητικές προσπάθειες στον τομέα της εξαγωγής πληροφοριών από τηλεπισκοπικές εικόνες.

Ανάλυση Οπτικοποίησης και Πείραμα Αφαίρεσης:

Η Ενότητα 5 περιλαμβάνει δύο υποενότητες: 5.1 Ανάλυση Οπτικοποίησης και 5.2 Πείραμα Αφαίρεσης. Στην υποενότητα 5.1, η έρευνα συγκρίνει τα αποτελέσματα εξαγωγής που προκύπτουν από την προτεινόμενη στρατηγική διδασκαλίας με τρεις άλλες μεθόδους διδασκαλίας για τα δεδομένα Massachusetts Road, LRSNY Road και WHU Building. Σκοπός είναι η περαιτέρω σύγκριση και ανάλυση των πλεονεκτημάτων και των περιορισμών της προτεινόμενης στρατηγικής. Στο Massachusetts Roads Dataset, η μέθοδος κατάφερε να αποτυπώσει και να εξάγει με ακρίβεια τα αντικείμενα των δρόμων. Στο LRSNY Roads Dataset, η στρατηγική επίσης δείχνει εξαιρετικές ικανότητες εξαγωγής αντικειμένων δρόμων και αποφεύγει την εξαγωγή λανθασμένων στόχων. Στο WHU Building Dataset, η στρατηγική εμφανίζει εξαιρετική απόδοση σε σύγκριση με άλλες μεθόδους διδασκαλίας, βελτιώνοντας σημαντικά την ολοκληρωμένη και ακριβή εξαγωγή στόχων για τα κτίρια. Στην υποενότητα 5.2, εξετάζεται η αποτελεσματικότητα των τακτικών της προτεινόμενης στρατηγικής διδασκαλίας για την εξαγωγή κατασκευών και δρόμων. Για αυτό το σκοπό, διεξήχθησαν πειράματα αφαίρεσης, τα οποία αξιολογήθηκαν σε τρία σύνολα δεδομένων τηλεπισκόπησης. Συνδυάζοντας υπάρχουσες στρατηγικές διδασκαλίας, τα πειράματα δείχνουν σημαντική βελτίωση στην απόδοση του μαθησιακού μοντέλου. Ωστόσο, σε σύγκριση με την προτεινόμενη στρατηγική διδασκαλίας, τα αποτελέσματα δείχνουν ότι η προτεινόμενη μέθοδος οδηγεί αποτελεσματικά το μαθητικό μοντέλο σε βελτιωμένη απόδοση στην εξαγωγή. Για να αξιολογηθεί περαιτέρω η αποτελεσματικότητα της προτεινόμενης στρατηγικής, που περιλαμβάνει την αμοιβαία ανταλλαγή πληροφοριών χαρακτηριστικών μεταξύ των δικτύων δασκάλων, διεξήχθησαν πειράματα αφαίρεσης σε σύγκριση με μια παραδοσιακή μέθοδο διδασκαλίας που χρησιμοποιεί άμεσα τη γνώση χαρακτηριστικών μεταξύ των δικτύων δασκάλων.

Εικόνα 3: Επισκόπηση της προτεινόμενης στρατηγικής διάλυσης μας που συνδυάζει πολλαπλές πηγές γνώσης και χρησιμοποιεί ένα συνεργατικό σύνολο δικτύων εκπαιδευτών.

Συμπεράσματα:

Συμπερασματικά, η προτεινόμενη μέθοδος ενσωματώνει μηχανισμούς πολλαπλής συνεργασίας δασκάλων και σύγχυσης πολλαπλών γνώσεων στην εκπαίδευση γνώσης, εφαρμόζοντάς τους σε εργασίες εξαγωγής δρόμων και κτιρίων. Αυτές οι καινοτομίες στοχεύουν στη βελτίωση της απόδοσης στις εργασίες εξαγωγής εικόνων από τηλεπισκόπηση, μειώνοντας ταυτόχρονα το μέγεθος του μοντέλου και τις απαιτήσεις σε υπολογιστικούς πόρους. Η στρατηγική της πολλαπλής συνεργασίας διδασκαλίας αξιοποιεί τις διάφορες δυνατότητες και την εμπειρία διαφορετικών δικτύων δασκάλων, προσφέροντας μια πιο περιεκτική καθοδήγηση στο μαθητικό μοντέλο. Επιπρόσθετα, η μέθοδος σύγχυσης πολλαπλών γνώσεων επιτρέπει την πλήρη αξιοποίηση της γνώσης από πολλαπλά δικτύα δασκάλων για τη βελτίωση της απόδοσης του συμπαγούς δικτύου. Τέλος, προτείνουν μια μέθοδο καθοδήγησης του μαθητικού δικτύου μέσω της ανταλλαγής γνώσης χαρακτηριστικών μεταξύ των δικτύων δασκάλων, η οποία βελτιώνει την κατανόηση και τις ικανότητες εξαγωγής χαρακτηριστικών της εικόνας από το μαθητικό μοντέλο. Μέσω αυστηρών πρακτικών αξιολογήσεων πολλών κορυφαίων διαδικασιών εκπαίδευσης γνώσης σε διάφορα σύνολα δεδομένων τηλεπισκοπικών εικόνων, η προτεινόμενη στρατηγική της μελέτης αποδεικνύει σημαντικές βελτιώσεις στην απόδοση. Η προτεινόμενη μέθοδος εκπαίδευσης γνώσης υπερτερεί άλλων κορυφαίων τεχνικών στο Massachusetts Roads Dataset, με αύξηση του IoU κατά 0.39% και του σκορ F1 κατά 0.53%. Στο LRSNY Roads Dataset, η μέθοδος εκπαίδευσης γνώσης υπερτερεί άλλων κορυφαίων στρατηγικών με αύξηση του IoU κατά 1.14% και της ακρίβειας κατά 0.85%. Στο WHU Building Dataset, η τεχνική τους υπερβαίνει άλλες κορυφαίες μεθόδους με αύξηση του IoU κατά 1.19% και της ακρίβειας κατά 0.34%.

Building and Road Detection from Remote Sensing Images Based on Weights Adaptive Multi-Teacher Collaborative Distillation Using a Fused Knowledge

Από RemoteSensing Wiki

Εμφανίσεις

Προσωπικά εργαλεία

Πλοήγηση

Αναζήτηση

Εργαλεία