Αναγνώριση Δασικού Τύπου με την Ταξινόμηση Random Forest σε Συνδυασμό με Δεδομένα SPOT και Πολυχρονικά Δεδομένα SAR
Από RemoteSensing Wiki
Πρωτότυπος Τίτλος: Forest Type Identification by Random Forest Classification Combined with SPOT and Multitemporal SAR Data.
Συγγραφείς: Ying Y., Mingze L. & Yu F.
Δημοσιεύθηκε: Journal of Forestry Research, 2018
Σύνδεσμος Πρότυπου Κειμένου: https://doi.org/10.1007/s11676-017-0530-4 [1]
Λέξεις κλειδιά: ταξινόμηση random forest, δεδομένα τηλεπισκόπησης πολλαπλών πηγών, πόλωση, αποσύνθεση
1. Εισαγωγή
Η ταξινόμηση των δασικών τύπων ενός οικοσυστήματος είναι ιδιαίτερα σημαντική στην έρευνα, σχετική με δασικούς πόρους, δασική δυναμική, δασική βιομάζα και εκτίμηση αποθήκευσης άνθρακα, με την τηλεπισκόπηση να αποτελεί βασικό εργαλείο για το σκοπό αυτό. Τα χωρικά δεδομένα που χρησιμοποιούνται για την ταξινόμηση των δασικών τύπων περιλαμβάνουν οπτικές εικόνες ΤΜ και SPOT, οι οποίες αποδίδουν δεδομένα με βάση την υφή και τα φασματικά χαρακτηριστικά τους. Ωστόσο, προκύπτουν συχνά λάθη, καθώς παράγοντες, όπως είναι οι καιρικές συνθήκες, επηρεάζουν τις εικόνες τηλεπισκόπησης, με αποτέλεσμα να περιπλέκεται η ταξινόμηση των δασικών τύπων. Η τηλεπισκόπηση με μικροκύματα αποτελεί ένα ικανό συμπλήρωμα της οπτικής τηλεπισκόπησης, καθώς οι απεικονίσεις που προκύπτουν παρουσιάζουν περισσότερες πληροφορίες, αφού μπορούν να είναι ημερήσιες ή νυχτερινές, χωρίς να επηρεάζονται από τα σύννεφα και τη βροχή. Επίσης, χρησιμοποιήθηκαν τα δεδομένα ραντάρ πόλωσης συνθετικού ανοίγματος (Polarization Synthetic Aperture Radar, PolSAR), τα οποία παράγουν πληροφορίες για τις φυσικές ιδιότητες και τους μηχανισμούς οπισθοσκέδασης και περιλαμβάνουν στοιχεία όπως, δεδομένα παρατήρησης, πίνακα σκέδασης, συνδιακύμανσης και συσχέτισης. Οι παράμετροι των πινάκων αυτών εφαρμόστηκαν στην ταξινόμηση και προέκυψαν μέσα από διαφορετικές μεθόδους πολωσιμετρικής διάσπασης. Χρησιμοποιήθηκε το κανάλι C για την ταξινόμηση των δασικών τύπων, ενώ για τη βελτίωση της διαφοροποίησης των τύπων χωρίς φύλλα χρησιμοποιήθηκαν πολωσιμετρικά στοιχεία, όπως HH, HV και VV. Ειδικότερα, στις εικόνες SAR (Synthetic Aperture Radar) η διαφοροποίηση μεταξύ δασικών και μη δασικών τύπων βλάστησης μπορεί να προσδιοριστεί εύκολα. Ωστόσο, στην περίπτωση όπου τα μέσα σκέδασης παρουσιάζουν παρόμοια απόκριση PolSAR, προκύπτουν ανεπαρκείς πληροφορίες για την ακριβή ταξινόμηση της εικόνας, μέσα από τους πίνακες σκέδασης, συνδιακύμανσης και συσχέτισης. Στη βελτίωση των αποτελεσμάτων συνεισφέρουν τα στοιχεία υφής SAR, όπως είναι για παράδειγμα η ταξινόμηση του εδάφους, στην οποία χρησιμοποιούνται τα στοιχεία PolSAR, σε συνδυασμό με την εφαρμογή των SAR. Η μεγαλύτερη ακρίβεια έχει επιτευχθεί μέσα από PolSAR διπλής εποχής, καθώς η εποχικότητα παίζει σημαντικό ρόλο στην ταξινόμηση της κάλυψης της γης από υγρότοπους, ανεξαρτήτως της χρησιμοποιούμενης εικόνας SAR, όπως και στην ταξινόμηση των δασών, με τη διαφοροποίηση φυλλοβόλων και αειθαλών ειδών.
Η τεχνολογική εξέλιξη της τηλεπισκόπησης παρέχει, πλέον, καλύτερη χωρική και χρονική ανάλυση των δεδομένων και συνεπώς, ακριβέστερη ταξινόμηση των δασικών τύπων, χάρη στις βελτιωμένες πλατφόρμες και αισθητήρες. Ο συνδυασμός των δεδομένων (ALOS PALSAR, TM, RADARSAT-2, SPOT, LiDAR κ.ά.) μπορεί να φτάσει σε βαθμό ακρίβειας ταξινόμησης μέχρι και 97%, όπως συνέβη σε μελέτη της ταξινόμησης των τύπων βλάστησης των Άλπεων. Τα χαρακτηριστικά, τα οποία ερευνώνται είναι οι δασικοί τύποι, η χρήση/κάλυψη γης, η ανακλαστικότητα της βλάστησης, το ύψος και ο μηχανισμός οπισθοσκέδασης, σύμφωνα με τα στοιχεία που προκύπτουν από πολυχρονικές, πολυαισθητήριες και πολυπολικές δορυφορικές εικόνες SAR. Επιπλέον, ο συνδυασμός της οπτικής τηλεπισκόπησης με τα δεδομένα τηλεπισκόπησης μικροκυμάτων μπορεί να προσφέρει συμπληρωματικές πληροφορίες στην αναγνώριση των δασικών τύπων και να βελτιώσει σημαντικά την ακρίβεια της ταξινόμησης. Στη συγκεκριμένη έρευνα συνδυάστηκαν τα πολυφασματικά δεδομένα του καναλιού C με οπτικές εικόνες SPOT5, με στόχο την ανάλυση των διαφορετικών τύπων δασών και των χαρακτηριστικών της πολωσιμετρικής τους σκέδασης, των φασματικών τους πληροφοριών και των χαρακτηριστικών φάσης τον Αύγουστο και τον Νοέμβριο του 2013. Επίσης, χρησιμοποιήθηκε η μέθοδος ταξινόμησης τυχαίου δάσους (random forest classification) για την ταξινόμηση των δασικών τύπων.
2. Μεθοδολογία
Περιοχή Μελέτης
Η δασική φάρμα Pangu ανήκει στην κομητεία Tahe, η οποία βρίσκεται στο βορειοδυτικό τμήμα της οροσειράς Daxing’an στο βορειότερο τμήμα της Κίνας (123°20’02’’-124°21’40’’Α και 52°16’38’’-52°47’4’’Β). Το αγρόκτημα καλύπτει 1120,7 km2 με υψόμετρο 800-1400 m. Το κλίμα είναι δροσερό ηπειρωτικό, με μέγιστες ετήσιες θερμοκρασίες -2,4 και 47,2°C. Οι ετήσιες βροχοπτώσεις κυμαίνονται από 300 έως 450 mm και προκύπτουν κυρίως τον Ιούλιο και τον Αύγουστο. Τα δάση καλύπτουν το 88% της συνολικής έκτασης με κυρίαρχα δασικά είδη τα εξής: Larix gmelinii, Pinus sylvestris, Betula platyphylla, Populus davidiana και Picea koraiensis.
Πηγές τηλεπισκοπικών δεδομένων
Οι εικόνες που χρησιμοποιήθηκαν για την αναγνώριση των δασικών τύπων ήταν οι RADARSAT-2 και SPOT5, με το κανάλι C να έχει εύρος 3,75-7,5 cm και ανάλυση 12×8 m. Το SPOT5 περιελάμβανε τα πολυφασματικά κανάλια Β1 (0,49-0,61 μm), Β2 (0,49-0,61 μm) και Β3 (0,78-0,89 μm). Επίσης, επιλέχθηκαν στοιχεία από δεδομένα POLSAR, σχετικά με την περίοδο άνθησης και φυλλόπτωσης των φυτών (Αύγουστος 2013 και Νοέμβριος 2013 αντίστοιχα).
Προεπεξεργασία των δεδομένων
Η προεπεξεργασία των δεδομένων περιελάμβανε το φιλτράρισμα της εικόνας, τη διόρθωση του εδάφους, τη γεωμετρική διόρθωση και την καταγραφή πολυφασικών δεδομένων SAR και οπτικών δεδομένων εικόνας. Αρχικά, συγχωνεύτηκαν τα πανχρωματικά και πολυφασματικά SPOT5 δεδομένα και στη συνέχεια, πραγματοποιήθηκε ατμοσφαιρική διόρθωση, επεξεργασία και φιλτράρισμα των δεδομένων SAR, όπως και γεωμετρική και ορθογραφική διόρθωση. Ακολούθησε η επαναδειγματοληψία στην εικόνα SAR (2,5 m) με τη χρήση της μεθόδου του εγγύτερου γείτονα, με σκοπό να συνδυαστούν οι οπτικές εικόνες με τα δεδομένα της εικόνας SAR.
Μέθοδος ταξινόμησης
Σύστημα ταξινόμησης
Το σύστημα ταξινόμησης που αναπτύχθηκε, βασίστηκε στην παρούσα ταξινόμηση χρήσεων γης, στην έρευνα δασικών πόρων στις πόλεις και τους νομούς της Heilongjiang και στα δεδομένα τηλεπισκόπησης και απογραφής των δασικών πόρων. Οι δασικοί τύποι που κυριαρχούν στην περιοχή είναι τα κωνοφόρα δάση και μικτά δάση κωνοφόρων και πλατύφυλλων (B. platyphylla, P. sylvestris, L. gmelinii, και P. Koraiensis). Τα μικτά δάση δεν ταξινομήθηκαν, καθώς τα εικονοστοιχεία μπορεί να εμφανίζουν πανομοιότυπα χαρακτηριστικά, δεδομένου ότι η υψηλότερη χωρική ανάλυση των εικόνων SPOT5 και RADARSAT-2 ήταν 2,5 m.
Ταξινόμηση Random Forest
Η μέθοδος του Random Forest υλοποιεί τoν τυχαίo αλγόριθμο για ταξινόμηση μέσα από τα διαδοχικά δέντρα απόφασης, τα οποία παρέχουν τα αντίστοιχα αποτελέσματα της αρχικής πρόβλεψης. Για την επιλογή Ν δειγμάτων, η πιθανότητα κάθε μη επιλεγμένου δείγματος είναι (1-1/Ν)Ν και όταν ο Ν είναι αρκετά μεγάλος, τότε η πιθανότητα συγκίνει στο 0,368, δηλαδή το 37% των δειγμάτων δεν εμφανίζεται στο σύνολο της εκπαίδευσης για να συμμετάσχει στο μοντέλο εκπαίδευσης. Επίσης, το μέρος των στοιχείων που δεν εντάσσεται στο σύνολο των δειγμάτων (Out Of the Bag, OOB) χρησιμοποιείται για την αξιολόγηση της απόδοσης του μοντέλου. Για κάθε δέντρο απόφασης, παράγεται μια ποσότητα ΟΟΒ για την απόκτηση μιας αμερόληπτης εκτίμησης του σφάλματος ταξινόμησης, για να αποκτήσουν εκτιμήσεις της σημαντικότητας των μεταβλητών. Μεταβλητές με τιμές σημαντικότητας που υπερβαίνουν το 0,01 επιλέγονται για ταξινόμηση, η οποία μπορεί να εμφανίσει υψηλή ακρίβεια πρόβλεψης και ικανοποιητική ανοχή σε ακραίες τιμές και ‘θόρυβο’, επιλύοντας προβλήματα που προκύπτουν από την έλλειψη προηγούμενης γνώσης και περιορισμένων δεδομένων. Επιπλέον, αναλύει αποτελεσματικά την αλληλεπίδραση και τη μη γραμμική σχέση μεταξύ δεδομένων και χρησιμοποιείται για τον χειρισμό σημαντικών ή πολυδιάστατων δεδομένων.
Εξαγωγή χαρακτηριστικών από δεδομένα RADARSAT-2 για ταξινόμηση
Διάφορες μέθοδοι ταξινόμησης που χρησιμοποιούνται από την πλήρη πόλωση των δεδομένων SAR βασίζονται στη θεωρία της αποσύνθεσης. Τυπικά, οι μέθοδοι αποσύνθεσης στόχων περιλαμβάνουν συνεκτικές και ασυνεχείς αποσυνθέσεις πόλωσης. Το μέθοδος της ασυνεπούς αποσύνθεσης επιλέγεται για την αποσύνθεση των στόχων λόγω της πολυπλοκότητας των φυσικών στόχων. Χαρακτηριστικό γνώρισμα των δεδομένων RADARSAT-2 για την ταξινόμηση είναι ο διαχωρισμός τους σε τρεις κατηγορίες. Η πρώτη κατηγορία περιλαμβάνει τον πίνακα συνδιακύμανσης, έναν συνεκτικό πίνακα και τις ιδιοτιμές που λαμβάνονται απευθείας από τα αρχικά δεδομένα. Η δεύτερη κατηγορία βασίζεται σε διαφορετικές μεθόδους αποσύνθεσης και περιλαμβάνει διάφορες παραμέτρους αποσύνθεσης, ενώ ο τρίτος τύπος περιλαμβάνει το δείκτη ραντάρ για τη βλάστηση και τη συνολική ισχύ. Οι συνολικοί παράμετροι, οι οποίοι εξάγονται από κάθε εικόνα RADARSAT-2 είναι 47.
Η υπολογιστική πολυπλοκότητα αυξάνεται όταν χρησιμοποιούνται όλες οι παράμετροι πόλωσης για τον προσδιορισμό των δασικών τύπων. Οι παράμετροι αυτές είναι ιδιαίτερα σημαντικές, καθώς η αύξησή τους αυξάνει το ‘θόρυβο’ σε σημείο που δεν διακρίνονται οι δασικοί τύποι. Συνεπώς, πρέπει να προηγηθεί η εξάλειψη ορισμένων στοιχείων. Το μοντέλο Random Forest επιλέγει τις μεταβλητές ανάλογα με τη σημαντικότητά τους (η μεγάλη σημαντικότητα μειώνει την ικανότητα πρόβλεψης και αυξάνει τα σφάλματα στο μοντέλο), ενώ τα αρχικά δεδομένα ΟΟΒ επικυρώνουν το μοντέλο και αυξάνουν την ακρίβειά του. Η διαφορά ακρίβειας έγκειται από τον υπολογισμό των αρχικών δεδομένων ΟΟΒ και των νέων ΟΟΒ, με το επίπεδο του θορύβου να αντιπροσωπεύει τη σπουδαιότητα της αντίστοιχης μεταβλητής. Επιπλέον, μια αύξηση της σημασίας της μεταβλητής του μοντέλου μειώνει σημαντικά την ακρίβεια.
Διαχωρισμός δειγμάτων
Η διαχωρισιμότητα ROI των δειγμάτων εκπαίδευσης διαφορετικών αντικειμένων κυμαίνεται από 0 έως 2 και παρουσιάζει βελτιωμένη διαχωρισιμότητα δειγμάτων όταν η τιμή είναι πιο κοντά στο 2. Σύμφωνα με τα δεδομένα απογραφής δασικών πόρων και τις εικόνες SPOT, τα δείγματα εκπαίδευσης διαφορετικών δασικών τύπων επιλέχθηκαν έτσι ώστε να είναι ομοιόμορφα κατανεμημένα σε εικόνες με εμφανή χαρακτηριστικά: 200 ομοιόμορφα δείγματα εκπαίδευσης για τα δάση B. platyphylla, P. sylvestris και L. gmelinii και 50 ομοιόμορφα δείγματα εκπαίδευσης για τα δάση P. koraiensis δάσος και μη δάσος.
3. Αποτελέσματα
Υπολογισμός διαχωρισιμότητας
Τα αποτελέσματα από το συνδυασμό των εικόνων RADARSAT και SPOT του Αυγούστου και του Νοεμβρίου έδειξαν τα εξής: 1) ανεπαρκής διαφοροποίηση του δάσους B. Platyphylla, καθώς η ανάπτυξη των δέντρων ήταν πιο πλούσια τον Αύγουστο με σχετικά παρόμοιο χαρακτηριστικό σκέδασης με αυτό των κωνοφόρων, 2) η διαχωριστικότητα των δειγμάτων εκπαίδευσης βελτιώθηκε, διότι ο αριθμός των φύλλων του δάσους πλατύφυλλων τον Νοέμβριο μειώθηκε και 3) τα χαρακτηριστικά σκέδασης και τα φασματικά χαρακτηριστικά του P. sylvestris, L. gmelinii, και P. koraiensis ήταν εύκολα διακριτέα, χωρίς τις επιδράσεις του δάσους πλατύφυλλων, σε αντίθεση με την περίπτωση που επιλέχθηκαν μόνο εικόνες SPOT. Ως εκ τούτου, προστέθηκαν μερικές παράμετροι της εικόνας SAR για την ταξινόμηση, με την υψηλότερη διαχωρισιμότητα των δειγμάτων εκπαίδευσης να παρατηρήθηκε όταν χρησιμοποιήθηκαν οι συνδυασμοί φασματικών και σκεδαστικών χαρακτηριστικών από εικόνες SPOT και RADARSAT τον Αύγουστο και το Νοέμβριο.
Αποτελέσματα ταξινόμησης και ανάλυση
Η ακρίβεια της ταξινόμησης των δασικών τύπων του δασικού αγροκτήματος Pangu αντιστοιχούσε στο 77%, με το δάσος B. Platyphylla να διακρίνεται με ακρίβεια σε σχέση με τα δάση κωνοφόρων. Όσον αφορά τα δάση κωνοφόρων, το L. gmelinii, P. koraiensis, και P. sylvestris, παρατηρήθηκε ένας βαθμός ανάμειξής τους, με αποτέλεσμα η ταξινόμηση με χρήση οπτικών εικόνων να μην είναι ικανοποιητικά ακριβής. Για αυτό το λόγο, προστέθηκαν εικόνες RADARSAT-2 για την ταυτοποίηση των δασικών τύπων, συμπληρωματικά με τις οπτικές εικόνες. Από το συνδυασμό των εικόνων SPOT και RADARSAT-2 του Αυγούστου, η ακρίβεια του αποτελέσματος ταξινόμησης ήταν 80%, με το αποτέλεσμα να βελτιώθηκε εμφανώς μετά την προσθήκη αποσυντεθειμένων παραμέτρων από τις εικόνες RADARSAT-2. Ωστόσο, εξαιτίας των τυχαίων και πολύπλοκων χαρακτηριστικών σκέδασης της βλάστησης τον Αύγουστο, τα δεδομένα είναι περιορισμένα ως προς την ικανότητά τους να βελτιώσουν την ταξινόμηση των ανοικτών δασικών εκτάσεων του δάσους B. platyphylla και των μη δασικών εκτάσεων.
Από το συνδυασμό των εικόνων SPOT και RADARSAT-2 του Νοεμβρίου, η ακρίβεια του αποτελέσματος ταξινόμησης ήταν 85%, ανώτερο ποσοστό από την ακρίβεια ταξινόμησης της χρήσης των εικόνων SPOT και RADARSAT-2 του Αυγούστου. Ο Νοέμβριος είναι ο μήνας που πραγματοποιείται η πτώση των φύλλων στο δάσος B. Platyphylla, βοηθώντας τη διάκριση μεταξύ των L. gmelinii, P. koraiensis και P. sylvestris. Στην εικόνα 5, η ακρίβεια του αποτελέσματος ταξινόμησης ήταν 88%, με το συνδυασμό εικόνων SPOT και RADARSAT-2 από τον Αύγουστο και το Νοέμβριο, βελτιώνοντας τη συνολική ακρίβεια μέσα από το συνδυασμό των πολυφασικών χαρακτηριστικών παραμέτρων πόλωσης και των οπτικών εικόνων.
4. Συζήτηση
Η χρήση της μεθόδου ταξινόμησης Random Forest με βάση τα δεδομένα πόλωσης, τις φασματικές πληροφορίες και τα χαρακτηριστικά φάσης που αντανακλώνται από τα πολυφασικά μικροκύματα και τις οπτικές εικόνες, παρείχαν ακριβέστερη ταξινόμηση των δασών σε σχέση με οποιαδήποτε από τις μεμονωμένες μεθόδους. Η χρήση μόνο των φασματικών πληροφοριών από τις εικόνες SPOT5 μπέρδεψε τα δάση κωνοφόρων, εξαιτίας των σχετικά κοντινών φασματικών χαρακτηριστικών με ακρίβεια μόνο 77%, ενώ η προσθήκη των δεδομένων SAR πλήρους πόλωσης από Αύγουστο και Νοέμβριο αύξησαν τα επίπεδα ακρίβειας σε 80 και 85%, αντίστοιχα. Η μέγιστη συνολική ακρίβεια ήταν 88% με την εισαγωγή των πολυφασικών εικόνων RADARSAT-2. Η πολυπλοκότητα του δάσους προκάλεσε δυσκολίες στην εξαγωγή χαρακτηριστικών μεταξύ διαφορετικών τύπων δασών. Καθότι για την ταξινόμηση των δασικών τύπων χρησιμοποιήθηκαν δεδομένα SAR πλήρους πόλωσης, μπορούν να προστεθούν δεδομένα υφής. Επίσης, αγνοήθηκαν οι πληροφορίες παρεμβολής από τις εικόνες RADARSAT-2. Ωστόσο, σε μελλοντικές μελέτες, τα αποτελέσματα της ταξινόμησης μπορούν να βελτιωθούν με τη χρήση των πληροφοριών παρεμβολής.