Ανίχνευση κτιρίων και μη από δορυφορικές εικόνες με χρήση του U-Net

Από RemoteSensing Wiki

Μετάβαση σε: πλοήγηση, αναζήτηση

Πρωτότυπος τίτλος: Detecting Buildings and Nonbuildings from Satellite Images Using U-Net

Συγγραφείς: Waleed Alsabhan 1, Turky Alotaiby 2, Basil Dudin 1

1 Al Faisal University, College of Engineering, P.O.Box 50927, Riyadh 11533, Kingdom of Saudi Arabia

2 King Abdulaziz City for Science and Technology, National Center for Artificial Intelligence, P.B. Box 6086, Riyadh 11442, Saudi Arabia

Δημοσιεύθηκε: Computational Intelligence and Neuroscience, 2022

Σύνδεσμος πρωτότυπου κειμένου: [[1]]

Περίληψη

Η αυτόματη ανίχνευση κτιρίων από δορυφορικές εικόνες υψηλής ανάλυσης εξυπηρετεί διάφορες εφαρμογές, όπως ο πολεοδομικός σχεδιασμός, η αντιμετώπιση καταστροφών και η παρακολούθηση της δυναμικής του πληθυσμού. Οι παραδοσιακές τεχνικές επεξεργασίας εικόνων συχνά υποφέρουν από ανακρίβειες ή μεγάλους χρόνους επεξεργασίας. Τα συνεπτυγμένα νευρωνικά δίκτυα (CNN) προσφέρουν μια πολλά υποσχόμενη λύση, με την αρχιτεκτονική U-Net, η οποία αναπτύχθηκε αρχικά για την κατάτμηση ιατρικών εικόνων, να αναδεικνύεται σε δημοφιλή επιλογή.Η παρούσα μελέτη διερευνά την αποτελεσματικότητα της χρήσης του U-Net για την εξαγωγή κτιρίων από δορυφορικές εικόνες, εστιάζοντας ιδιαίτερα στην ικανότητά του να επιτυγχάνει υψηλή ακρίβεια με ελάχιστα δεδομένα εκπαίδευσης. Το τμήμα κωδικοποιητή της αρχιτεκτονικής U-Net τροποποιείται ώστε να ενσωματώνει τη μάθηση μεταφοράς, αξιοποιώντας προ-εκπαιδευμένα μοντέλα όπως τα VGGNet και ResNet. Τα μοντέλα αυτά συγκρίνονται με μια προσαρμοσμένη αρχιτεκτονική U-Net.Τα αποτελέσματα δείχνουν ότι η ραχοκοκαλιά με βάση το VGGNet αποδίδει την υψηλότερη ακρίβεια 84,9%. Αυτή η προσέγγιση επιδεικνύει ανώτερες επιδόσεις σε σύγκριση με τα υπάρχοντα μοντέλα, ιδίως όταν πρόκειται για περιορισμένα δεδομένα εκπαίδευσης. Τα ευρήματα αναδεικνύουν τις δυνατότητες της μάθησης μεταφοράς στην ανάλυση δορυφορικών εικόνων και υπογραμμίζουν την αποτελεσματικότητα των CNN, ιδίως της αρχιτεκτονικής U-Net, σε εργασίες αυτόματης ανίχνευσης κτιρίων.

Εισαγωγή

Η παρούσα μελέτη ασχολείται με την πρόκληση της αυτοματοποίησης της εξαγωγής κτιρίων από δορυφορικές εικόνες, η οποία είναι ζωτικής σημασίας για διάφορες εφαρμογές όπως ο αστικός σχεδιασμός και η αντιμετώπιση καταστροφών. Οι παραδοσιακές μέθοδοι, όπως οι χειροκίνητες έρευνες, είναι χρονοβόρες, γεγονός που επιβάλλει την ανάγκη για αποτελεσματικές τεχνικές επεξεργασίας εικόνας. Αξιοποιώντας τις εξελίξεις στην τεχνολογία της τηλεπισκόπησης, η παρούσα έρευνα χρησιμοποιεί βαθιά μάθηση, και συγκεκριμένα συνεπαγωγικά νευρωνικά δίκτυα (CNN), για τη σημασιολογική κατάτμηση δορυφορικών εικόνων για την ταξινόμηση κάθε εικονοστοιχείου ως ανήκοντος σε κτίριο ή όχι.Εμπνευσμένο από την αρχιτεκτονική U-Net, ένα μοντέλο CNN αναπτύσσεται και εκπαιδεύεται σε δυαδικές μάσκες που αντιπροσωπεύουν εικονοστοιχεία κτιρίων. Διερευνώνται τεχνικές μάθησης μεταφοράς για τη βελτίωση της ακρίβειας ταξινόμησης, ενσωματώνοντας κωδικοποιητές ResNet και VGGNet στο πλαίσιο U-Net. Το προτεινόμενο μοντέλο αποσκοπεί στην επίτευξη ακριβούς κατάτμησης κτιρίων με ταυτόχρονη ελαχιστοποίηση των απαιτήσεων δεδομένων εκπαίδευσης.Οι βασικές συνεισφορές αυτής της εργασίας περιλαμβάνουν την ανάπτυξη ενός υπολογιστικά αποδοτικού μοντέλου για την τμηματοποίηση κτιρίων, την επίτευξη υψηλής ακρίβειας με ελάχιστα δεδομένα εκπαίδευσης και την υπεροχή έναντι προηγούμενων μοντέλων που έχουν κατασκευαστεί με μεγαλύτερα σύνολα δεδομένων. Η ευελιξία του μοντέλου αποδεικνύεται με την εκπαίδευση σε εικόνες RGB, επιτρέποντας τη χρήση διαφόρων πλαισίων βαθιάς μάθησης για την αποτελεσματική εξαγωγή κτιρίων από δορυφορικές εικόνες.

Βιβλιογραφική ανασκόπηση

Παρουσιάζεται το υπάρχον ερευνητικό τοπίο και τις πρόσφατες εξελίξεις στην αυτοματοποιημένη αναγνώριση κτιρίων από δορυφορικές εικόνες. Ενώ έχουν χρησιμοποιηθεί παραδοσιακές μέθοδοι όπως ANN, πιθανοτικές προσεγγίσεις και SVM, η πρόσφατη εστίαση έχει μετατοπιστεί προς τις τεχνικές βαθιάς μάθησης, ιδίως τα νευρωνικά δίκτυα συνελίξεων (CNN). Αυτές οι προσεγγίσεις που βασίζονται σε CNN στοχεύουν στην ακριβή τμηματοποίηση κτιρίων από δορυφορικές εικόνες, αντιμετωπίζοντας προκλήσεις όπως ο εντοπισμός και τα σημασιολογικά όρια τμηματοποίησης. Επιπλέον, οι ερευνητές έχουν διερευνήσει τεχνικές συγχώνευσης δεδομένων και έχουν αξιοποιήσει σύνολα δεδομένων που παρέχονται από οργανισμούς όπως η Inria για τη βελτίωση της ακρίβειας εξαγωγής κτιρίων. Η περίληψη υπογραμμίζει τη σημασία της αυτοματοποιημένης αναγνώρισης κτιρίων για διάφορες εφαρμογές και αναδεικνύει τις δυνατότητες των μεθόδων βαθιάς μάθησης σε αυτόν τον τομέα.

Υλικά και Μέθοδοι

Η μελέτη χρησιμοποιεί ένα ανοικτό σύνολο δεδομένων από δορυφορικές εικόνες υψηλής ανάλυσης της αγροτικής επαρχίας Xinxing, επαρχία Guangdong, Κίνα, που περιλαμβάνει 68 εικόνες RGB, οι οποίες έχουν κατατμηθεί χειροκίνητα σε κατηγορίες φόντου, νέων κτιρίων και παλαιών κτιρίων. Για να αντιμετωπιστεί ο περιορισμένος αριθμός εικόνων που έχουν σχολιαστεί για τις κατηγορίες κτιρίων, το σύνολο δεδομένων μειώνεται σε δύο κατηγορίες (κτίριο και μη κτίριο). Εφαρμόζονται τεχνικές επαύξησης δεδομένων σε πραγματικό χρόνο για την αύξηση του μεγέθους του συνόλου δεδομένων εκπαίδευσης, οι οποίες περιλαμβάνουν περιστροφές, αναστροφές, ζουμ και ψαλιδίσματα. Η αρχιτεκτονική U-Net, εμπνευσμένη από τους αυτόματους κωδικοποιητές, χρησιμοποιείται για τη σημασιολογική κατάτμηση, η οποία χωρίζει τη σκηνή σε κατηγορίες κτιρίων και μη κτιρίων. Το U-Net περιλαμβάνει ένα μονοπάτι συρρίκνωσης για την εξαγωγή χαρακτηριστικών και ένα μονοπάτι επέκτασης για την ανάκτηση χάρτη τμηματοποίησης, με συνδέσεις παράλειψης που βοηθούν στην ανάκτηση και τον εντοπισμό χαρακτηριστικών. Το μοντέλο υλοποιείται χρησιμοποιώντας το πλαίσιο Keras με backend TensorFlow και εκπαιδεύεται σε GPU, χρησιμοποιώντας τον αλγόριθμο βελτιστοποίησης Adam. Η διαδικασία εκπαίδευσης περιλαμβάνει αλλαγή μεγέθους εικόνων σε 512x512, εκπαίδευση για 50 εποχές με μέγεθος παρτίδας δύο. Το εκπαιδευμένο μοντέλο αξιολογείται σε δοκιμαστικές εικόνες για να εκτιμηθεί η απόδοσή του.

Συζήτηση και αποτελέσματα

Η μελέτη χρησιμοποίησε αρχικά μια βασική αρχιτεκτονική U-Net για την τμηματοποίηση κτιρίων, η οποία απέδωσε μη βέλτιστες επιδόσεις λόγω της απουσίας επαύξησης της εικόνας. Για την αντιμετώπιση αυτού του προβλήματος, ο κωδικοποιητής U-Net αντικαταστάθηκε με ResNet και VGGNet προεκπαιδευμένα στο ImageNet, με αποτέλεσμα τη βελτίωση των επιδόσεων. Συγκεκριμένα, το U-Net με κορμό VGG πέτυχε την υψηλότερη ακρίβεια. Η εκμάθηση μεταφοράς από το ImageNet παρείχε ένα καλό σημείο εκκίνησης για τη λεπτομερή ρύθμιση των μοντέλων, ενισχύοντας τη μαθησιακή τους ικανότητα παρά το μικρότερο σύνολο δεδομένων εκπαίδευσης. Η απλή αρχιτεκτονική του VGG με ομοιογενείς πυρήνες συνέλιξης και maxpooling συνέβαλε στην ανώτερη απόδοσή του σε εργασίες τμηματοποίησης εικόνων. Εφαρμόστηκαν διάφορες τεχνικές επαύξησης, όπως αναστροφή, ζουμ, περιστροφή και διάτμηση, για τη διαφοροποίηση του συνόλου δεδομένων εκπαίδευσης, βελτιώνοντας τη γενίκευση του μοντέλου. Η πρόοδος της εκπαίδευσης παρακολουθήθηκε, διασφαλίζοντας ότι δεν υπήρξε υπερβολική προσαρμογή, με μετρικές επιδόσεων όπως ο συντελεστής Dice και η ακρίβεια να αυξάνονται σταθερά. Παρά την ανισορροπία του συνόλου δεδομένων, όπου κυριαρχούσαν τα εικονοστοιχεία που δεν ήταν κτίρια, το εκπαιδευμένο μοντέλο παρουσίασε υψηλή ακρίβεια στη διάκριση μεταξύ των κλάσεων κτιρίων και μη κτιρίων, όπως αποδεικνύεται από την ανάλυση του πίνακα σύγχυσης. Συνολικά, η εκμάθηση μεταφοράς με προ-εκπαιδευμένους κωδικοποιητές και η αύξηση των δεδομένων αποδείχθηκε αποτελεσματική στην ενίσχυση της απόδοσης κατάτμησης κτιρίων.

Η αναγνώριση κτιρίων από δορυφορικές φωτογραφίες είναι ζωτικής σημασίας για διάφορες εφαρμογές, όπως ο πολεοδομικός σχεδιασμός, η ανάπτυξη υποδομών και η αστική διαχείριση. Ωστόσο, η χειροκίνητη αναγνώριση κτιρίων από δορυφορικές εικόνες είναι χρονοβόρα και αναποτελεσματική. Ως εκ τούτου, οι αυτόματες μέθοδοι ανίχνευσης κτιρίων είναι απαραίτητες για την αντιμετώπιση αυτών των προκλήσεων. Στην παρούσα μελέτη, για τη δημιουργία του συνόλου δεδομένων χρησιμοποιήθηκαν δορυφορικές εικόνες υψηλής ανάλυσης από την αγροτική Κίνα. Οι εικόνες είχαν ανάλυση 0,26 m και το μέγεθός τους κυμαινόταν από 900 × 900 έως 1024 × 1024 εικονοστοιχεία. Ενώ προηγούμενες έρευνες επιχείρησαν την τμηματοποίηση περιπτώσεων χρησιμοποιώντας το μοντέλο Mask R-CNN, η παρούσα μελέτη επικεντρώθηκε στην ανάπτυξη ενός σημασιολογικού μοντέλου τμηματοποίησης για την ταξινόμηση και τμηματοποίηση κτιρίων σε εικόνες. Παρά τη χρήση μικρότερου αριθμού εικόνων εκπαίδευσης, το μοντέλο που αναπτύχθηκε σε αυτή τη μελέτη είχε ως στόχο να ξεπεράσει τους περιορισμούς που παρατηρούνται σε άλλα σύνολα δεδομένων, όπως τα εσφαλμένα ή ασαφή δεδομένα. Τα αποτελέσματα συγκρίθηκαν με την υπάρχουσα βιβλιογραφία, όπου οι τυπικές αρχιτεκτονικές U-Net ενισχύθηκαν και εκπαιδεύτηκαν σε σύνολα δεδομένων με υψηλότερες αναλύσεις. Ωστόσο, αυτά τα μοντέλα αντιμετώπισαν δυσκολίες στην ακριβή τμηματοποίηση κτιρίων μικρού μεγέθους λόγω περιορισμών στον χειρισμό λεπτομερών χαρακτηριστικών. Συνολικά, το μοντέλο σημασιολογικής τμηματοποίησης που αναπτύχθηκε στην παρούσα μελέτη προσφέρει μια πολλά υποσχόμενη προσέγγιση για την αναγνώριση κτιρίων σε δορυφορικές εικόνες, με πιθανές εφαρμογές σε διάφορους τομείς που απαιτούν ακριβή και αποτελεσματική εξαγωγή πληροφοριών για κτίρια. Το μοντέλο που αναπτύχθηκε σε αυτή τη μελέτη, βασισμένο σε μια αρχιτεκτονική U-Net με μια ραχοκοκαλιά VGG16, προεκπαιδευμένη με βάρη ImageNet, υπερέβη τις επιδόσεις των άλλων δύο μοντέλων που αξιολογήθηκαν. Το εύρημα αυτό αναδεικνύει την αποτελεσματικότητα της επιλεγμένης αρχιτεκτονικής και της ραχοκοκαλιάς στην ακριβή τμηματοποίηση κτιρίων από δορυφορικές εικόνες. Επιπλέον, η διαδικασία ανάπτυξης ήταν ταχύτερη και αποτελεσματικότερη, ακόμη και με μικρότερο σύνολο δεδομένων εκπαίδευσης. Αυτό υποδηλώνει ότι το μοντέλο μπορεί να επιτύχει υψηλές επιδόσεις με λιγότερα σχολιασμένα παραδείγματα, μειώνοντας τον χρόνο σχολιασμού, διατηρώντας παράλληλα την ικανότητα τμηματοποίησης. Συνολικά, τα αποτελέσματα αυτά καταδεικνύουν την ευρωστία και την αποτελεσματικότητα της προτεινόμενης προσέγγισης για την αναγνώριση κτιρίων σε δορυφορικές εικόνες.

Επίλογος Στόχος της μελέτης ήταν η αυτόματη τμηματοποίηση όλων των κτιρίων σε δορυφορικές εικόνες υψηλής ανάλυσης χρησιμοποιώντας το μοντέλο σημασιολογικής τμηματοποίησης U-Net. Η προσέγγιση αυτή επιλέχθηκε λόγω της υψηλής ακρίβειας που προσφέρει με ελάχιστα δεδομένα εκπαίδευσης και ελάχιστες απαιτήσεις σε επεξεργαστική ισχύ. Οι ερευνητές διερεύνησαν την απόδοση ενός προσαρμοσμένου μοντέλου U-Net από άκρη σε άκρη και προ-εκπαιδευμένων μοντέλων ως αντικαταστάτες του κωδικοποιητή. Τα αποτελέσματα έδειξαν ότι τα προ-εκπαιδευμένα μοντέλα υπερτερούσαν του παραδοσιακού μοντέλου U-Net, καθώς παρείχαν πιο ισχυρές αναπαραστάσεις χαρακτηριστικών. Συγκεκριμένα, ο προ-εκπαιδευμένος κωδικοποιητής VGGNet που ενσωματώθηκε στην αρχιτεκτονική U-Net απέδωσε πολλά υποσχόμενα αποτελέσματα, επιτυγχάνοντας ακρίβεια 89,28%, διατομή πάνω από την ένωση (IoU) 74,70%, βαθμολογία F1 84,90%, ακρίβεια 88,99%, ανάκληση 82,61% και βαθμολογία Dice 77,47% σε ένα μικρό σύνολο δεδομένων εικόνας. Αυτές οι μετρήσεις καταδεικνύουν την αποτελεσματικότητα της προτεινόμενης προσέγγισης στην ακριβή τμηματοποίηση κτιρίων από δορυφορικές εικόνες, ξεπερνώντας προηγούμενα μοντέλα όπως το Mask R-CNN όσον αφορά την ακρίβεια με περιορισμένα δεδομένα εκπαίδευσης. Οι μελλοντικές ερευνητικές προσπάθειες αποσκοπούν στην επέκταση του συνόλου δεδομένων εκπαίδευσης και στη βελτίωση του σχεδιασμού του δικτύου για τη βελτίωση της ικανότητας γενίκευσης του προτεινόμενου μοντέλου. Αυτό περιλαμβάνει τη διερεύνηση μεγαλύτερων συνόλων δεδομένων και πιο προηγμένων αρχιτεκτονικών δικτύου για την περαιτέρω ενίσχυση της απόδοσης και την προσαρμογή σε πιο εκτεταμένες δυνατότητες επεξεργασίας.

Προσωπικά εργαλεία