Αυτόματη ανίχνευση κτιρίων σε δορυφορικές απεικονίσεις πολύ υψηλής διακριτικής ικανότητας με ολοκλήρωση αντικειμενοστρεφούς ανάλυσης...
Από RemoteSensing Wiki
Γραμμή 37: | Γραμμή 37: | ||
- | |||
- | |||
'''Μεθοδολογία:''' | '''Μεθοδολογία:''' | ||
Γραμμή 46: | Γραμμή 44: | ||
+ | [[Αρχείο: Κείμενο4 2.jpg |200px|thumb|center|Εικόνα 2: Η δορυφορική εικόνα WorldView-2 με ημερομηνία λήψης 23 Απριλίου 2011 στο ορατό φάσμα και σε ψευδεγχρωματικό σύνθετο NIR-Red-Green] | ||
'''Ανάλυση και συμπεράσματα:''' | '''Ανάλυση και συμπεράσματα:''' |
Αναθεώρηση της 19:28, 15 Φεβρουαρίου 2024
Πρότυπος τίτλος:Αυτόματη ανίχνευση κτιρίων σε δορυφορικές απεικονίσεις πολύ υψηλής διακριτικής ικανότητας με ολοκλήρωση αντικειμενοστρεφούς ανάλυσης και τεχνικών μηχανικής και βαθειάς μάθησης. Μελέτη στον Αστικό ιστό της Νήσου Ρόδου. (Ένα μέρος του τίτλο στο άρθρο του wiki κόπηκε)
Συγγραφέας:Νικολαΐδης Γεώργιος
Πηγή:https://dspace.lib.ntua.gr/xmlui/handle/123456789/56761?show=full
Περίληψη:
Η εργασία επικεντρώνεται στην εξαγωγή κτιριακών οντοτήτων από δορυφορικές εικόνες υψηλής χωρικής ανάλυσης, με σκοπό την παρακολούθηση μεταβολών στον αστικό ιστό με την πάροδο του χρόνου. Παρέχεται μια λεπτομερής εικόνα του πεδίου έρευνας και των στόχων της έρευνας. Αναφέρεται σε διάφορες μεθόδους, όπως η ανάλυση δορυφορικών εικόνων, η πολυεπίπεδη κατάτμηση, η ιεραρχική ταξινόμηση με ασαφή λογική, η μηχανική μάθηση με τη χρήση του αλγορίθμου Random Forest, και τα συνελικτικά νευρωνικά δίκτυα. Επίσης, εστιάζεται στη χρήση των δορυφορικών εικόνων για τη δημιουργία βάσης δεδομένων με κτηματολογικά στοιχεία και αστικούς χάρτες, προσφέροντας χρήσιμες πληροφορίες για την παρακολούθηση άνομων πράξεων και τον έλεγχο της υφιστάμενης κατάστασης του αστικού κέντρου. Περιγράφεται η σημασία των δορυφορικών εικόνων υψηλής χωρικής ανάλυσης (VHR) στην ανίχνευση μεταβολών και στην υποστήριξη διαφόρων εφαρμογών όπως η περιβαλλοντική διαχείριση, ο πολεοδομικός σχεδιασμός, και η βιώσιμη αστική ανάπτυξη.
Εισαγωγή:
Ο αυτόματος εντοπισμός κτιρίων κρίνεται αναγκαίος καθώς μπορεί από την μία να δημιουργηθεί βάση δεδομένων και να γίνει αξιοποιήσιμη από διάφορες επιστήμες, αλλά και σε σχέση με τις παραδοσιακές χειροκίνητες μεθόδους, μπορεί να πραγματοποιηθεί σε μικρό χρονικό διάστημα, χωρίς να εξαρτάται από την παρατηρητικότητα και την προσοχή του χρήστη. Βέβαια, εντοπίζονται και διάφορες προκλήσεις που αντιμετωπίζουν οι αλγόριθμοι ταξινόμησης κατά την ανίχνευση κτιρίων σε εικόνες, παρά τις δυνατότητες των σύγχρονων ψηφιακών μέσων και λογισμικών. Τα κύρια ζητήματα περιλαμβάνουν την ανεπαρκή αντίδραση των φασματικών χαρακτηριστικών των κτιρίων, την παρόμοια φασματική συμπεριφορά με άλλες επιφάνειες, και τα προβλήματα που προκύπτουν από τις σκιές. Επιπλέον, αναφέρεται ότι η γεωμετρία των κτιρίων, ειδικά η κανονικότητα στο σχήμα τους, αποτελεί εμπόδιο για τις κλασικές μεθόδους ταξινόμησης που επικεντρώνονται στα εικονοστοιχεία. Στη συνέχεια, αναφέρει την πρόοδο που έχει σημειωθεί με τη χρήση μηχανικής μάθησης, όπως ο αλγόριθμος K-means, ο Support Vector Machine (SVM), και ο k-πλησιέστερος γείτονας, για την ανίχνευση κτιρίων. Επισημαίνεται ότι παρά την πρόοδο της μηχανικής μάθησης, η αντικειμενοστραφής ανάλυση εικόνας παραμένει μια διαδικασία πειραματικής βελτιστοποίησης και επιλογής παραμέτρων για την κατάλληλη αναγνώριση των κτιρίων. Η δυνατότητα χρήσης πολυεπίπεδης κατάτμησης και χρήσης πληροφοριών από αισθητήρες όπως το LiDAR μπορεί να δώσει βελτιωμένα αποτελέσματα.
Τηλεπισκόπηση και βαθειά μάθηση:
Στο δεύτερο κεφάλαιο αναλύεται η επιστήμη της τηλεπισκόπησης. Συγκεκριμένα, αναφέρεται επιστήμη και τεχνική που ασχολείται με τη συλλογή, επεξεργασία και ανάλυση πληροφοριών για διάφορα φαινόμενα ή αντικείμενα από απόσταση. Αυτή η διαδικασία εφαρμόζεται σε πολλούς επιστημονικούς τομείς, όπως η δασολογία, η γεωλογία, η γεωμορφολογία, η ωκεανογραφία, η κλιματολογία, η γεωγραφία, και η παρακολούθηση των φυσικών και ανθρώπινων διαθέσιμων. Για την τηλεπισκόπηση απαιτούνται τρία βασικά στοιχεία: μια πλατφόρμα (π.χ., αεροπλάνο, δορυφόρος), ένα αντικείμενο προς παρατήρηση και ένα όργανο μέτρησης ή αισθητήρα. Το κύριο σκοπό της τηλεπισκόπησης είναι η απόκτηση πληροφοριών και η χρήση τους σε εφαρμογές όπως η επεξεργασία εικόνων, η μελέτη της γης, και η καταγραφή φυσικών φαινομένων. Η πληροφορία που παράγεται από τους τηλεπισκοπικούς αισθητήρες χρησιμοποιείται σε πληθώρα εφαρμογών, όπως η χαρτογράφηση, η μελέτη των ακτογραμμών, η ανίχνευση μεταβολών στον αστικό ιστό, η παρακολούθηση φυσικών και ανθρωπογενών φαινομένων, και η μετεωρολογία. Η πληροφορία αυτή συμβάλλει στην επιστημονική έρευνα και την εφαρμογή σε διάφορους τομείς. Παρακάτω περιγράφονται τα κύρια σημεία για επεξεργασία και ανάλυση των τηλεσκοπικών δεδομένων. Συγκεκριμένα, παρουσιάζονται με τη σειρά η χωρική, η φασματική, η ραδιομετρική ανάλυση, η επεξεργασία των δεδομένων οι ραδιομετρικές και φασματικές διορθώσεις, η ενίσχυση και εν τέλει η ταξινόμηση. Αυτές οι διαδικασίες είναι σημαντικές για την αποτελεσματική αξιοποίηση των τηλεπισκοπικών δεδομένων, καθώς εξασφαλίζουν την ακρίβεια και την ερμηνευτική τους ικανότητα.
Στο κεφάλαιο 2.2 γίνεται αναφορά στην Object Based Image Analysis (OBIA), μια τεχνική ανάλυσης εικόνας που χρησιμοποιεί χαρακτηριστικά όπως φασματικά, χωρικά, υφής και τοπολογικά δεδομένα. Επικεντρώνεται στη χρήση της OBIA για την ανάλυση εικόνων υψηλής χωρικής ανάλυσης, ενσωματώνοντας γεωγραφικές πληροφορίες και τηλεπισκόπηση. Αναφέρεται στην πολυεπίπεδη κατάτμηση και την ταξινόμηση ως κύριες διαδικασίες, εξηγώντας την ανάγκη για υψηλής ποιότητας εικόνες και την ανάλυση βασισμένη σε αντικείμενα για ακριβέστερες ταξινομήσεις και απεικονίσεις. Η διαδικασία απαιτεί πολλαπλές δοκιμές με διάφορες παραμέτρους όπως κλίμακα, χρώμα και σχήμα, ενώ εξίσου σημαντική είναι η τοπική ομοιογένεια και οι συντελεστές στάθμισης χρώματος και σχήματος ώστε να δημιουργούνται συμπαγή αντικείμενα με λείο περίγραμμα.
Ιδιαίτερη μνεία γίνεται στη μηχανική μάθηση (ML) ως έναν τομέα της τεχνητής νοημοσύνης (AI) που επιτρέπει στις εφαρμογές λογισμικού να προβλέπουν αποτελέσματα χωρίς εκ των προτέρων προγραμματισμό. Εξηγούνται οι διάφορες μέθοδοι μάθησης στη μηχανική εκμάθηση: εποπτευόμενη, μη εποπτευόμενη, ημι-εποπτευόμενη και ενισχυτική μάθηση, ενώ γίνεται αναφορά και στη χρήση αλγορίθμων ML ως προς την ταξινόμηση δεδομένων τηλεπισκόπησης και την εφαρμογή τους σε διάφορες περιπτώσεις χρήσης όπως η ανίχνευση απάτης και η προληπτική συντήρηση. Η βαθιά μάθηση που αναφέρεται σε συνέχεια της εργασίας αποτελεί μια υποκατηγορία της τεχνητής νοημοσύνης που επικεντρώνεται στα συνελικτικά νευρωνικά δίκτυα (CNN). Τα CNN μιμούνται τη δομή του ανθρώπινου εγκεφάλου, επεξεργάζονται δεδομένα και μαθαίνουν από αυτά. Υπάρχει μεγάλη ανάγκη για δεδομένα για την εκπαίδευση των CNN, ώστε να βελτιστοποιείται η ικανότητα τους να αναγνωρίζουν πολύπλοκα χαρακτηριστικά και μοτίβα στις εικόνες.
Συγκεκριμένα η βαθιά μάθηση χρησιμοποιείται για πολυπλοκότερα ζητήματα ενώ η μηχανική μάθηση είναι συχνά πιο κατάλληλη για απλούστερα προβλήματα, όπου οι διαθέσιμες πληροφορίες είναι περιορισμένες ή τα μοτίβα λιγότερο πολύπλοκα.
Σαν απάντηση στις διευρυμένες ανάγκες προέκυψε το λογισμικο eCognition το οποίο, επιτρέπει στους χρήστες να σχεδιάσουν λύσεις εξαγωγής χαρακτηριστικών ή ανίχνευσης αλλαγών, μετατρέποντας τα γεωχωρικά δεδομένα σε πληροφορίες γεωχώρου. Διακρίνεται για την ικανότητά του να αναλύει εικόνες με τρόπο που μιμείται τη γνωστική δύναμη του ανθρώπινου μυαλού. Οι χρήστες μπορούν να μετατρέψουν την κατανόησή τους για τα δεδομένα σε μορφή που είναι αναγνωρίσιμη από τον υπολογιστή, δημιουργώντας "σετ κανόνων". Αυτό επιτρέπει την αντιμετώπιση πολύπλοκων καταστάσεων και σχέσεων στην ανάλυση γεωχωρικών δεδομένων. Επιπλέον, το eCognition αξιοποιεί όχι μόνο την εξέταση μεμονωμένων pixel, αλλά και την ανάλυση "εικονικών αντικειμένων", λαμβάνοντας υπόψη το χρώμα, το σχήμα, την υφή, το μέγεθος και το περιβάλλον τους. Αυτή η μοναδική προσέγγιση καθιστά το λογισμικό ιδανικό για ποικίλες εφαρμογές, όπως η γεωχωρική ανάλυση, η εξαγωγή χαρακτηριστικών και η ανίχνευση αλλαγών σε δεδομένα τηλεπισκόπησης και αεροφωτογραφιών.
Η Ρόδος:
Για τις ανάγκες τις εργασίας πραγματοποιείται πειραματική μελέτη εντοπιζόμενη στη Ρόδο, συγκεκριμένα στο εμπορικό, οικονομικό, και κοινωνικό κέντρο του νησιού, την πρωτεύουσα. Καταλαμβάνει έκταση περίπου 2.35 τ.χλμ. μεταξύ γεωγραφικών πλατών 4033150 και 4035450 και μηκών 608950 και 610550. Βρίσκεται στο σύστημα αναφοράς WGS84, Ζώνη 35, με κωδικό EPSG:32635.
Η πόλη της Ρόδου, διοικητικό κέντρο του νησιού και της Περιφερειακής Ενότητας Ρόδου, περιλαμβάνει τη Μεσαιωνική Πόλη, μνημείο παγκόσμιας κληρονομιάς UNESCO από το 1988, με αξιόλογα μνημεία από διάφορες ιστορικές περιόδους. Στα βορειοδυτικά της πόλης βρίσκεται ο Αερολιμένας Ρόδου «Διαγόρας», ενώ σημαντικός είναι και ο λιμένας του νησιού. Η αναγνώριση και μελέτη των χαρακτηριστικών του οικιστικού χώρου βασίστηκε σε βιβλιογραφία, χάρτες και πολεοδομικό σχεδιασμό.
[[Αρχείο: Κείμενο4 1.jpg |200px|thumb|center|Εικόνα 1: Η δορυφορική εικόνα WorldView-2 με ημερομηνία λήψης 23 Απριλίου 2013 στο ορατό φάσμα και σε ψευδεγχρωματικό σύνθετο NIR-Red-Green]
Μεθοδολογία:
Χρησιμοποιήθηκαν δύο δορυφορικές εικόνες WorldView-2, η μία με ημερομηνία λήψης 23 Απριλίου 2013, η οποία αφορά την περιοχή μελέτης, δηλαδή τη νήσο Ρόδο και η άλλη με ημερομηνία λήψης 23 Απριλίου 2011, η οποία αφορά την περιοχή Αυλάκι στο πόρτο Ράφτη Αττικής. Τα δορυφορικά δεδομένα έχουν χωρική ανάλυση 0.5 m, στα τέσσερα κανάλια τα οποία διαθέτουν, από το σύνολο των οκτώ (8) καναλιών του δορυφόρου, δηλαδή για τα τρία ορατά, μπλε, πράσινο, κόκκινο και το ένα υπέρυθρο κανάλι, εγγύς υπέρυθρο 1 (NIR1) με ραδιομετρική ανάλυση των 16 bit. Η μεθοδολογία της μελέτης για την αυτόματη αναγνώριση και εξαγωγή κτηρίων στη Ρόδο περιλάμβανε αρχικά την απόκτηση δορυφορικών εικόνων και τη φωτοερμηνεία τους μέσω του λογισμικού QGIS. Χρησιμοποιήθηκαν τα κανάλια Red-Green-Blue (RGB) και το ψευδέγχρωμο σύνθετο NIR-Red-Green. Ακολούθησε η αντικειμενοστρεφής ανάλυση εικόνας στο λογισμικό Ecognition, με πολυεπίπεδη κατάτμηση, επιλογή χαρακτηριστικών και κανόνων ασαφούς λογικής. Διεξήχθησαν ταξινομήσεις χρησιμοποιώντας τεχνικές όπως εγγύτερος γείτονας, τυχαίο δάσος (random forest) και συνελικτικά νευρωνικά δίκτυα.
[[Αρχείο: Κείμενο4 2.jpg |200px|thumb|center|Εικόνα 2: Η δορυφορική εικόνα WorldView-2 με ημερομηνία λήψης 23 Απριλίου 2011 στο ορατό φάσμα και σε ψευδεγχρωματικό σύνθετο NIR-Red-Green]
Ανάλυση και συμπεράσματα:
Όσον αφορά την αναγνώριση της βλάστησης στην περιοχή μελέτης της Ρόδου αποτελεί μέρος της προσπάθειας να διαχωριστεί από τα κτήρια. Παρότι η βλάστηση δεν αποτελεί το κύριο αντικείμενο της μελέτης, ο εντοπισμός της είναι σημαντικός και εφικτός. Στην αστική περιοχή της Ρόδου, η βλάστηση είναι αραιή και κυρίως αποτελείται από συστάδες δέντρων, χωρίς καλλιέργειες ή δασικές εκτάσεις. Στο ορατό φάσμα (RGB), η βλάστηση απεικονίζεται πράσινη, ενώ στο ψευδέγχρωμο σύνθετο NIR-Red-Green παρουσιάζεται με κόκκινους τόνους. Ο κανονικοποιημένος δείκτης βλάστησης NDVI (Normalised Difference Vegetation Index) χρησιμοποιείται για την αναγνώριση της βλάστησης, με τη βλάστηση να παρουσιάζει υψηλές τιμές ανακλαστικότητας στο εγγύς υπέρυθρο και μικρές τιμές στο κόκκινο. Η φωτοερμηνεία αποκάλυψε την παρουσία δενδρικής βλάστησης σε αστικό περιβάλλον, χαμηλής βλάστησης σε πάρκα, κήπους, αθλητικούς χώρους και γήπεδα. τα κτήρια αποτελούν το βασικό αντικείμενο της μελέτης και καταλαμβάνουν το μεγαλύτερο μέρος της δορυφορικής εικόνας. Υπάρχει σημαντική ποικιλία στα κτήρια, με διαφορετικές φασματικές υπογραφές και συνθέτες χωροταξικές δομές. Η περιοχή περιλαμβάνει ιστορικά κτήρια, τζαμιά και κάστρα, προσδίδοντας έναν μοναδικό χαρακτήρα.
Κατά τη φωτοερμηνεία, τα κτήρια με πλάκες τσιμέντου ή ελενίτ παρουσιάζουν λευκές υφές, ενώ τα ιστορικά κτήρια έχουν έναν χαρακτηριστικό λευκό χρωματισμό. Τα κεραμοσκεπή κτήρια εμφανίζονται κόκκινα στο ορατό φάσμα και μωβ στο ψευδέγχρωμο σύνθετο. Η υφή των κτηρίων γίνεται πιο τραχιά στην περίπτωση που υπάρχουν επιπρόσθετες κατασκευές ή σκιάσεις στις οροφές.
Τα ανοιχτόχρωμα κτήρια δείχνουν υψηλή ανακλαστικότητα στο μπλε κανάλι, ενώ τα κεραμοσκεπή κτήρια ξεχωρίζουν στο κόκκινο κανάλι. Αναγνωρίστηκαν αρχικά τα κτήρια από ανοιχτόχρωμο σκυρόδεμα ή πλάκες με λευκές αποχρώσεις, τα κτήρια με μόνωση ή σκυρόδεμα με σκούρους τόνους και τα κεραμοσκεπή κτήρια με κόκκινους και καφέ τόνους. Τα περισσότερα κτήρια είχαν κανονικά πολυγωνικά σχήματα, εκτός από μερικές εξαιρέσεις όπως αποθήκες ή κλειστά γυμναστήρια. Οι φημισμένες καστροπολιτείες αποτελούν ένα σημαντικό αντικείμενο μελέτης, λόγω της έντονης ανομοιογένειας των σχημάτων τους, των μακρών τειχών και των διαφορετικών φασματικών υπογραφών που παραπέμπουν σε διαφορετικά υλικά κατασκευής. Αυτή η ποικιλομορφία δημιούργησε δυσκολίες στη διαδικασία κατάτμησης και δημιουργίας κανόνων ασαφούς λογικής, καθώς τα κάστρα δεν μπορούσαν να ανιχνευθούν αυτόματα με τα κριτήρια που ισχύουν για τα συνηθισμένα κτήρια.
Στην περιοχή μελέτης ανιχνεύθηκαν επίσης άλλοι χώροι αστικής δόμησης με διακριτικές φασματικές υπογραφές, όπως γήπεδα τένις, τα οποία δεν συμπεριλαμβάνονται στο αντικείμενο μελέτης. Επιπλέον, τα ιστορικά κτήρια, όπως τα τζαμιά και τα οθωμανικά λουτρά, αποτέλεσαν μία πρόκληση στην ανίχνευση, καθώς δεν ακολουθούν συγκεκριμένο μοτίβο ούτε σε χωροταξικό ούτε σε φασματικό επίπεδο. Σημαντικά παραδείγματα περιλαμβάνουν το τέμενος του Σουλεϊμάν και τη μουσουλμανική βιβλιοθήκη του Χαφίζ, τα οποία διαφέρουν σημαντικά σε δομή και σχηματισμό από τα τυπικά αστικά κτήρια.
Στη συνέχεια της εργασίας παρουσιάζεται ενδελεχώς η διαδικασία διαφόρων διαδικασιών ανάλυσης και ταξινόμησης, τα βήματα καθώς και τα συμπεράσματα που εξάγονται από τη καθεμιά. Οι διαφορετικές μέθοδοι χρησιμοποιούνται ώστε τα συμπεράσματα να είναι όσον το δυνατόν πληρέστερα αλλά και αντικειμενικά. Η μεθοδολογία OBIA χρησιμοποίησε φασματικούς και γεωμετρικούς δείκτες για την εξαγωγή των κτηρίων, αν και η παρόμοια φύση των υλικών δημιούργησε δυσκολίες στην ακριβή ταξινόμηση. Η εργασία επίσης εξέτασε την αυτοματοποίηση της διαδικασίας OBIA μέσω της εφαρμογής αλγορίθμων μηχανικής και βαθιάς μάθησης, όπως Decision Tree, Random Forest και συνελικτικά νευρωνικά δίκτυα. Παρά τα πλεονεκτήματα της αυτοματοποίησης και της υψηλής ακρίβειας, τα μοντέλα βαθιάς μάθησης απαιτούν μεγάλο όγκο δεδομένων και υπολογιστική ισχύ. Τα καλύτερα αποτελέσματα επιτεύχθηκαν με τον συνδυασμό βαθιάς μάθησης και OBIA, προσφέροντας ακρίβειες κοντά στο 100% στην ανίχνευση κτηρίων.