Ανίχνευση αλλαγών πολλαπλών μορφών μέσω αυτοεποπτευόμενης μάθησης αντίθεσης διαφορών για τηλεπισκόπηση
Από RemoteSensing Wiki
Πρωτότυπος τίτλος: Self-supervised multimodal change detection basedondifferencecontrast learning for remote sensingimagery
Συγγραφείς: Xuan Houa, Yunpeng Baib, Yefan Xiea, Yunfeng Zhangc, Lei Fua, Ying Lia, Changjing Shang, Qiang Shen
Πηγή: School of Computer Science, National Engineering Laboratory for Integrated Aero-Space-Ground-Ocean Big Data Application Technology, Shaanxi Provincial Key Laboratory of Speech & Image Information Processing, Northwestern Polytechnical University, Xi’an, 710129, China Department of Computer Science, Aberystwyth University, Aberystwyth, SY23 3DB, UK Shaanxi Satellite Application Center for Natural Resources, Xi’an, 710065, China School of Software, Northwestern Polytechnical University, Xi’an, 710129, China
Λέξεις κλειδιά: Self-supervised learning, Change detection, Multimodal image, Remote sensing
Σύνδεσμος πρωτότυπου κειμένου: https://doi.org/10.1016/j.patcog.2024.111148
Εισαγωγή
Η ανίχνευση αλλαγών (Change Detection - CD) είναι μια τεχνική που χρησιμοποιείται για τον εντοπισμό αλλαγών στην επιφάνεια της γης, προσδιορίζοντας περιοχές αλλαγών μέσω διάκρισης και ταξινόμησης εικόνων δύο χρονικών στιγμών, πίξελ προς πίξελ. Ο στόχος αυτής της έρευνας είναι να εντοπίσει περιοχές ενδιαφέροντος όπου έχουν συμβεί αλλαγές με την πάροδο του χρόνου, ενώ παράλληλα να φιλτράρει πληροφορίες ψευδο-αλλαγών (που οφείλονται σε παράγοντες όπως ο φωτισμός και η εποχικότητα). Η ανίχνευση αλλαγών στις εικόνες τηλεπισκόπησης έχει σημαντική πρακτική αξία, καθώς παρέχει καθοδήγηση για: • Ανοικοδόμηση μετά από καταστροφές. • Υποστήριξη της αστικής ανάπτυξης. • Διατήρηση δασών και προστασία του περιβάλλοντος.
Προκλήσεις και Τεχνολογίες Για την κάλυψη των αναγκών παρακολούθησης της επιφάνειας της γης, έχουν αναπτυχθεί προηγμένοι αισθητήρες που παράγουν εικόνες με διαφορετικά χαρακτηριστικά: 1. Οπτικές εικόνες: Πλούσιες σε χαρακτηριστικά, αλλά ευάλωτες σε καιρικές συνθήκες. 2. Εικόνες SAR (Synthetic Aperture Radar): Με καλή διείσδυση και ανθεκτικότητα στον καιρό, αλλά περιορισμένες σε μονοζωνικά δεδομένα και χαμηλότερη ανάλυση. Οι διαφορές αυτές απαιτούν εξελιγμένες μεθόδους για τη μελέτη διαφορετικών κατηγοριών εικόνων. Στα τρέχοντα αλγόριθμα CD, τα δεδομένα θεωρούνται συχνά ομοιογενή, δηλαδή ότι προέρχονται από τον ίδιο αισθητήρα. Ωστόσο, στην πράξη (π.χ., αξιολογήσεις καταστροφών), οι εικόνες συχνά προέρχονται από διαφορετικούς αισθητήρες, ενισχύοντας την ανάγκη για τεχνολογίες ανίχνευσης αλλαγών σε πολυμορφικά δεδομένα. Self-DCF Για την αντιμετώπιση αυτών των προβλημάτων, το άρθρο προτείνει έναν νέο αλγόριθμο Multimodal Change Detection (MCD) με αυτοεποπτευόμενη μάθηση και μια μονάδα Unified Mapping Unit (UMU): • Χαρακτηριστικά: o Ανάγκη για μη επισημασμένα δεδομένα. o Μείωση θορύβου και εξαγωγή χαρακτηριστικών από εικόνες διαφορετικών αισθητήρων. • Αρχιτεκτονική: o Εισαγωγή του Dynamic Large Kernel (DLK) για αποδοτική εκμάθηση σε πολλαπλές κλίμακες. o Ενοποίηση χαρακτηριστικών μέσω της UMU για τη μείωση του χάσματος μεταξύ δεδομένων.
Μέθοδος
Αυτή η ενότητα περιγράφει το συνολικό πλαίσιο αυτοεποπτευόμενης μάθησης της προτεινόμενης μεθόδου, παρουσιάζοντας τα δίκτυα εξαγωγής χαρακτηριστικών που χρησιμοποιούνται για διαφορετικές μορφές δεδομένων, καθώς και τη μονάδα ενοποιημένης χαρτογράφησης (Unified Mapping Unit - UMU) και τη συνάρτηση απωλειών που εφαρμόζεται για την εκπαίδευση του δικτύου. Επισκόπηση Η ανίχνευση αλλαγών (Change Detection - CD) για εικόνες τηλεπισκόπησης περιλαμβάνει ταξινόμηση σε επίπεδο πίξελ, όπου το ζητούμενο είναι να προσδιοριστεί αν κάθε πίξελ έχει υποστεί κάποια αλλαγή. Παραδοσιακά, η ανίχνευση απαιτεί λεπτομερή επισήμανση πίξελ από ειδικούς. Επιπλέον, δεδομένου ότι οι εικόνες σε ένα πολυμορφικό έργο CD προέρχονται από διαφορετικούς αισθητήρες (όπως SAR και οπτικές εικόνες), συχνά χρειάζονται συνεργασία ειδικών από διαφορετικούς τομείς, κάτι που οδηγεί σε έλλειψη συνεπών συνόλων δεδομένων και μειωμένη απόδοση των μεθόδων βαθιάς μάθησης. Η παρούσα εργασία στοχεύει να χρησιμοποιήσει αυτοεποπτευόμενη μάθηση για την ανίχνευση αλλαγών που συμβαίνουν στην επιφάνεια του εδάφους από πολυμορφικές εικόνες πριν και μετά την αλλαγή.
Πλαίσιο Self-DCF
Το προτεινόμενο πλαίσιο Self-DCF (Self-supervised Difference Contrast Framework) κατασκευάστηκε για: 1. Την εξαγωγή αποτελεσματικών χαρακτηριστικών από τις εικόνες. 2. Την ανάλυση και τον διαχωρισμό των χαρακτηριστικών αυτών για τη δημιουργία χαρτών αλλαγών. Δεδομένα εισόδου Οι είσοδοι του Self-DCF περιλαμβάνουν: • Εικόνα πριν την αλλαγή (𝐼𝑀1). • Εικόνα μετά την αλλαγή (𝐼𝑀2). • Συνδυασμένη εικόνα (𝐼𝑐𝑜𝑛): Ορίζεται ως η στοίβα των 𝐼𝑀1 και 𝐼𝑀2 κατά τη διάσταση καναλιού. • Μεταφρασμένη εικόνα (𝐼𝑇𝑀1): Παράγεται μέσω μετάφρασης δεδομένων από την 𝐼𝑀1 ώστε να προσομοιάζει το είδος των δεδομένων της 𝐼𝑀2. Η 𝐼𝑇𝑀1 δεν είναι πραγματική εικόνα τηλεπισκόπησης, αλλά προσομοιωμένα δεδομένα που προκύπτουν από την 𝐼𝑀1. Η μετάφραση βασίζεται σε προεκπαιδευμένα μοντέλα με συνδυασμένα δεδομένα SAR και οπτικών εικόνων, τα οποία ελαχιστοποιούν το χάσμα μεταξύ μορφών δεδομένων (domain gap). Παρόλο που αυτή η διαδικασία μπορεί να εισάγει θόρυβο, ενισχύει τη σταθερότητα του Self-DCF.
Διαδικασία Self-DCF
Το Self-DCF χωρίζεται σε τρία μέρη: 1. Δίκτυο εκπαίδευσης (Deep trainable network): o Περιλαμβάνει ένα πολυμορφικό δίκτυο εξαγωγής χαρακτηριστικών (poly feature extraction network) και τη μονάδα ενοποίησης (UMU). o Εξάγει χαρακτηριστικά από τις τέσσερις εισαγωγές δεδομένων και χαρτογραφεί τα χαρακτηριστικά στον ίδιο χώρο υψηλής διάστασης, μειώνοντας το χάσμα μεταξύ των μορφών εικόνων. 2. Φάση εκπαίδευσης (Training phase): o Χρησιμοποιείται η συνάρτηση απώλειας cross entropy για τη διατήρηση της πληροφορίας των ζευγών εικόνων και η συνάρτηση απώλειας contrastive για την επίβλεψη του μοντέλου. 3. Φάση συμπερασμάτων (Inference phase): o Χρησιμοποιείται μια μέθοδος κατωφλίωσης (thresholding) για τη δημιουργία του χάρτη αλλαγών μέσω ανάλυσης των χαρακτηριστικών που εξήχθησαν από το εκπαιδευμένο δίκτυο.
Αρχιτεκτονική του Self-DCF (α) Δίκτυο με δυνατότητα εκπαίδευσης, (β) Φάση εκπαίδευσης και (γ) Φάση συμπερασμάτων. Η λεπτομέρεια της Μονάδας Ενοποιημένης Χαρτογράφησης (Unified Mapping Unit - UMU).
Πολυμορφικό Δίκτυο Εξαγωγής Χαρακτηριστικών
Τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNN) έχουν την ικανότητα να αποτυπώνουν αυξημένα επίπεδα αφαίρεσης και πολυπλοκότητας στις ιεραρχίες χαρακτηριστικών, μαθαίνοντας ισχυρά και αντιπροσωπευτικά χαρακτηριστικά. Ένα πολυκλαδικό πλαίσιο μάθησης, βασισμένο στα CNN, σχεδιάστηκε για να μαθαίνει διακριτά χαρακτηριστικά από εικόνες. Αυτό το πλαίσιο περιλαμβάνει: • Δίκτυο ψευδο-triplet με δύο κλάδους για την εκμάθηση πλούσιας πληροφορίας εικόνας από ζεύγη εικόνων δύο χρονικών στιγμών. • Ένα ακόμα δίκτυο με έναν κλάδο για την εκμάθηση της πληροφορίας διαφορών μεταξύ πολυμορφικών ζευγών εικόνων δύο χρονικών στιγμών. Αυτό το σύστημα επιτρέπει την αποτελεσματική εξαγωγή διακριτών χαρακτηριστικών τόσο από ομοιογενείς όσο και από ετερογενείς εικόνες τηλεπισκόπησης. Ενοποιημένη Μονάδα Χαρτογράφησης (Unified Mapping Unit - UMU) Η χαρτογράφηση πολυμορφικών εικόνων δύο χρονικών στιγμών σε συγκρίσιμους χώρους χαρακτηριστικών παραμένει μια σημαντική πρόκληση για την ανίχνευση αλλαγών (Change Detection - CD) σε εικόνες τηλεπισκόπησης. Αυτό οφείλεται στο μεγάλο χάσμα πεδίων εικόνας (domain gap) που συνήθως υπάρχει μεταξύ εικόνων από διαφορετικές μορφές δεδομένων. Για την αντιμετώπιση αυτού του προβλήματος, σχεδιάστηκε μια Ενοποιημένη Μονάδα Χαρτογράφησης (Unified Mapping Unit - UMU) για να προβάλλει τέσσερα ξεχωριστά χαρακτηριστικά, 𝑭𝑀1, 𝑭𝑇𝑀1, 𝑭𝑀2 και 𝑭𝑑, που προέρχονται από το πολυμορφικό δίκτυο εξαγωγής χαρακτηριστικών, σε έναν κοινό χώρο διαστάσεων.
Λειτουργία της UMU 1. Ανεξάρτητη Επεξεργασία Εισόδων: o Η UMU αρχικά διαχειρίζεται τις εισόδους από κάθε μορφή δεδομένων ανεξάρτητα, επεξεργαζόμενη τα χαρακτηριστικά από κάθε κλάδο ξεχωριστά. o Στόχος είναι η ενοποίηση διαφορετικών χώρων χαρακτηριστικών, ώστε τα χαρακτηριστικά 𝑭′𝑀1, 𝑭𝑇′𝑀1, 𝑭′𝑀2 και 𝑭′𝑑 να είναι συγκρίσιμα. 2. Αρχιτεκτονική Transformer: o Ενσωματώνει μια αρχιτεκτονική transformer για να καταγράψει πληροφορίες πλαισίου (context) από τους χάρτες χαρακτηριστικών. o Χαρτογραφεί διαφορετικούς χάρτες χαρακτηριστικών στον ίδιο χώρο από μια παγκόσμια οπτική. Δομή της UMU Η UMU αποτελείται από δύο μέρη: 1. Κωδικοποιητής tokens (Token Encoder): o Μετασχηματίζει τα εισερχόμενα χαρακτηριστικά σε σειριακά tokens. o Αυξάνει τη διασύνδεση μεταξύ χαρακτηριστικών, δημιουργώντας το υπόβαθρο για την ενοποίησή τους σε έναν ομοιογενή χώρο. 2. Αποκωδικοποιητής tokens (Token Decoder): o Ραφινάρει τα tokens και τα χαρτογραφεί σε έναν συνεκτικό χώρο χαρακτηριστικών, εφαρμόζοντας έναν μηχανισμό διασταυρούμενης προσοχής (cross-attention). o Εξασφαλίζει τη χωρική συνέπεια και συγκρισιμότητα των χαρακτηριστικών που προέρχονται από διαφορετικές μορφές δεδομένων και χρονικές στιγμές. Αυτή η διαδικασία καθιστά δυνατή την ενοποίηση πληροφοριών από διαφορετικές μορφές δεδομένων σε έναν κοινό, εναρμονισμένο χώρο χαρακτηριστικών, επιτρέποντας αξιόπιστη και συγκρίσιμη ανάλυση. Πείραμα και Συζήτηση
4.1. Σύνολα Δεδομένων
Η αποτελεσματικότητα της προτεινόμενης προσέγγισης αξιολογείται χρησιμοποιώντας τρία σύνολα δημοσίως διαθέσιμων πολυμορφικών εικόνων δύο χρονικών στιγμών. 1. Δεδομένα από το Onera Satellite Change Detection (OSCD): o Μορφή 1 (Modality 1): Εικόνες από τον αισθητήρα Sentinel-2, που περιλαμβάνουν τέσσερα φασματικά στοιχεία (κόκκινο, πράσινο, μπλε και υπέρυθρο), με ανάλυση 10 μέτρων. o Μορφή 2 (Modality 2): Εικόνες SAR από τον αισθητήρα Sentinel-1, προερχόμενες από επεκτάσεις του OSCD. Οι εικόνες συλλέγονται από τρεις πόλεις: • Μουμπάι (Mumbai): 858 × 557 πίξελ. • Χονγκ Κονγκ (Hong Kong): 695 × 540 πίξελ. • Saclay: 688 × 639 πίξελ. Αυτές οι εικόνες καλύπτουν τρεις διαφορετικές μορφές: 1. Πολυφασματικές εικόνες (multispectral: κόκκινο, πράσινο, μπλε και υπέρυθρο). 2. Ορατές εικόνες (visible: κόκκινο, πράσινο, μπλε). 3. Εικόνες SAR. Η Εικόνα 2 παρουσιάζει τις εικόνες από δύο μορφές (ορατές και SAR) για τα παραπάνω σύνολα δεδομένων, καθώς και τους αντίστοιχους χάρτες αναφοράς αλλαγών.
Πολυμορφικά ζεύγη εικόνων δύο χρονικών στιγμών και χάρτες αλλαγών.
2. Πρόσθετα Σύνολα Δεδομένων: o River dataset: Περιλαμβάνει μια εικόνα SAR από τον αισθητήρα Radarsat-2 (εικόνα πριν την αλλαγή) και μια πανχρωματική εικόνα από τον Landsat-7 (εικόνα μετά την αλλαγή), και οι δύο με επεξεργασμένες διαστάσεις 343 × 291 πίξελ. Η κύρια ανιχνευθείσα αλλαγή είναι η διάβρωση των όχθεων ποταμών. o Shuguang dataset: Περιλαμβάνει μια εικόνα SAR πριν την αλλαγή (2008) και μια οπτική εικόνα μετά την αλλαγή (2012), και οι δύο προτυποποιημένες σε διαστάσεις 593 × 921 πίξελ. Η κύρια αλλαγή αφορά την κατασκευή κτιρίων σε πρώην γεωργικές εκτάσεις.
Σκοπός Χρήσης των Δεδομένων
Αυτά τα δεδομένα εμπλουτίζουν το πεδίο της μελέτης με διάφορα σενάρια αλλαγών και μορφές δεδομένων, παρέχοντας μια ολοκληρωμένη βάση για την αξιολόγηση της αποτελεσματικότητας των μεθόδων ανίχνευσης αλλαγών (MCD). Σύγκριση Μέθοδοι Για να επαληθευτεί η απόδοση της προτεινόμενης προσέγγισης, συγκρίθηκαν έξι υπάρχουσες μέθοδοι μη εποπτευόμενης ανίχνευσης αλλαγών (CD) από τη βιβλιογραφία, καθώς και δύο αυτοεποπτευόμενες μέθοδοι. Οι μέθοδοι είναι οι εξής: 1. Ανάλυση Διανύσματος Αλλαγής (Change Vector Analysis - CVA): o Κλασική μη εποπτευόμενη μέθοδος ανίχνευσης αλλαγών. 2. Βαθιά Ανάλυση Διανύσματος Αλλαγής (Deep Change Vector Analysis - DCVA): o Ένα προεκπαιδευμένο συνελικτικό νευρωνικό δίκτυο εξάγει υπερδιανύσματα χαρακτηριστικών πολλαπλών χρονικών στιγμών, τα οποία αναλύονται για τη δημιουργία δυαδικού χάρτη αλλαγών. 3. Γραφήματα Βασισμένα σε Μη Τοπική Ομοιότητα Μοτίβων (Nonlocal Patch Similarity-Based Graph - NPSG): o Χρησιμοποιείται ένα μέτρο ομοιότητας για την κατασκευή γραφήματος για κάθε μοτίβο (patch), ενώ το αποτέλεσμα συγκρίνει τις δομές των γραφημάτων για την ανίχνευση αλλαγών. 4. Βελτιωμένο Γράφημα Μη Τοπικής Βάσης (Improved Nonlocal Patch-Based Graph - INLPG): o Βασίζεται στη δομική συνοχή για τη σύγκριση των δομών των εικόνων δύο χρονικών στιγμών και την ανίχνευση περιοχών αλλαγών. 5. Ιτερική Σταθερή Αναπαράσταση και Σημασιολογική Συντμημένη Συνεπιμέτρηση (Iterative Robust Graph and Markovian Co-Segmentation - IRGMcS): o Χρησιμοποιείται γράφημα K-πλησιέστερων γειτόνων για την αναπαράσταση των δομών των εικόνων και οι χάρτες αλλαγών δημιουργούνται μέσω Μαρκοβιανής τμηματοποίησης. 6. Γράφημα Βασισμένο σε Σχέσεις Ομοιότητας και Διαφορετικότητας (Similarity and Dissimilarity Relationships-Based Graph - SDIR): o Χρησιμοποιεί σχέσεις διαφορετικότητας ως συμπληρωματική προσέγγιση στις σχέσεις ομοιότητας για την κατασκευή γραφήματος δομής. 7. Αυτοεποπτευόμενη Ανίχνευση Αλλαγών Πολλαπλών Αισθητήρων (Self-Supervised Multisensor Change Detection - SMCD): o Ένα αυτοεποπτευόμενο δίκτυο χρησιμοποιεί βαθιά ομαδοποίηση και μάθηση αντίθεσης για την εξαγωγή χαρακτηριστικών και σύγκριση των χαρτών αλλαγών. Θεωρείται η κορυφαία μέθοδος (State-of-the-Art - SOTA) για τα σύνολα δεδομένων που εξετάζονται. 8. Αυτοεποπτευόμενη Ανίχνευση Αλλαγών Με Καθοδήγηση από Υπερπίξελ (Superpixel-Guided Self-Supervised Change Detection - S3CD): o Μη εποπτευόμενο δίκτυο που βασίζεται στην αυτοεποπτευόμενη μάθηση με καθοδήγηση από υπερπίξελ. Αντιμετωπίζει την έλλειψη δεδομένων εκπαίδευσης, δημιουργώντας υψηλής ποιότητας εικόνες διαφορών μέσω ανάλυσης χαρακτηριστικών σε πολλαπλές κλίμακες.
Οι παραπάνω μέθοδοι συγκρίνονται για να αξιολογηθεί η αποτελεσματικότητα της προτεινόμενης προσέγγισης στα πολυμορφικά δεδομένα δύο χρονικών στιγμών.
Συμπεράσματα
Αυτό το άρθρο παρουσίασε έναν νέο αλγόριθμο αυτοεποπτευόμενης ανίχνευσης αλλαγών (MCD), εξοπλισμένο με μια προτεινόμενη μονάδα ενοποιημένης χαρτογράφησης (Unified Mapping Unit - UMU) για την αντιμετώπιση των προκλήσεων που υπάρχουν στην ανίχνευση αλλαγών σε πολυμορφικές εικόνες τηλεπισκόπησης. Ο προτεινόμενος αλγόριθμος Self-DCF επιλύει αποτελεσματικά το ζήτημα της έλλειψης επισημασμένων δεδομένων στα καθήκοντα MCD, αξιοποιώντας ένα πλαίσιο αυτοεποπτευόμενης μάθησης που δεν απαιτεί ετικέτες. Επιπλέον, η UMU ενσωματώνεται για να μειώσει το χάσμα των πεδίων εικόνας μεταξύ των πολυμορφικών εικόνων δύο χρονικών στιγμών, επιτρέποντας ταυτόχρονη σύγκριση και επίβλεψη με πληροφορίες από διαφορετικές πηγές δεδομένων. Η αποτελεσματικότητα της προτεινόμενης προσέγγισης έχει επικυρωθεί σε πέντε δημοφιλή και απαιτητικά σύνολα δεδομένων, με πειραματικά αποτελέσματα, τόσο ποσοτικά όσο και ποιοτικά, να καταδεικνύουν το δυναμικό της. Οι συγκριτικές μελέτες δείχνουν ότι το Self-DCF προσφέρει ισορροπημένη απόδοση και υπεροχή σε σχέση με τις προηγμένες μη εποπτευόμενες και αυτοεποπτευόμενες μεθόδους ανίχνευσης αλλαγών για ετερογενείς εικόνες.