Τυχαίο δάσος στην τηλεπισκόπηση: Μια ανασκόπηση των εφαρμογών και μελλοντικές κατευθύνσεις

Από RemoteSensing Wiki

Μετάβαση σε: πλοήγηση, αναζήτηση

Random forest in remote sensing: A review of applications and future directions

Mariana Belgiua, Lucian Drăguţb, Department of Geoinformatics – Z_GIS, Salzburg University, Schillerstrasse 30, 5020 Salzburg, Austria West University of Timisoara, Department of Geography, Vasile Parvan Avenue, 300223 Timisoara, Romania Received 9 October 2015, Revised 11 December 2015, Accepted 20 January 2016, Available online 12 February 2016

πηγή: [[1]]

Μετάφραση και Περίληψη

1. Εισαγωγή

Η Τηλεπισκόπηση έχει αποδείξει την αξία της σε πολλούς τομείς, αλλά η επιτυχία οποιασδήποτε εικόνας ταξινόμησης εξαρτάται από διάφορους παράγοντες, συμπεριλαμβανομένης της επιλογής της κατάλληλης διαδικασίας ταξινόμησης. Ταξινομητές επόπτες χρησιμοποιούνται ευρέως, δεδομένου ότι είναι οι πιο ισχυροί για να προσεγγίσουν ένα μοντέλο. Αυτοί οι ταξινομητές είναι σε θέση να μάθουν τα χαρακτηριστικά των κατηγοριών του στόχου από δοκιμαστικά δείγματα και να εντοπίσουν αυτά τα γνωστά χαρακτηριστικά των ταξινόμητων δεδομένων. Η χρήση του ταξινομητή RF έχει λάβει αυξημένη προσοχή λόγω των εξαιρετικών αποτελεσμάτων κατάταξης που λαμβάνονται και την ταχύτητα της επεξεργασίας τους. Ο ταξινομητής RF παράγει αξιόπιστες ταξινομήσεις. Επιπλέον, αυτός ο ταξινομητής μπορεί να χρησιμοποιηθεί επιτυχώς για να επιλέξετε και να ταξινομήσετε αυτές τις μεταβλητές με τη μεγαλύτερη ικανότητα να διακρίνονται ανάμεσα στους στόχους. Αυτό είναι ένα σημαντικό πλεονέκτημα, δεδομένου ότι η μεγάλη διάσταση των τηλεπισκοπικών δεδομένων καθιστά την επιλογή των πιο σχετικών μεταβλητών μια χρονοβόρα, επιρρεπή σε λάθη και υποκειμενική εργασία .

2. Συνολικοί ταξινομητές στην τηλεπισκόπηση

Οι ταξινομητές παραμετρικής εποπτείας, όπως Μέγιστη Πιθανότητα Ταξινόμηση (MLC) παρέχουν εξαιρετικά αποτελέσματα όταν ασχολούνται με μονοτροπικά δεδομένα. Ωστόσο, είναι περιορισμένα όταν ασχολούνται με πολυτροπικά σύνολα δεδομένων εισόδου, επειδή αυτοί οι ταξινομητές αναλαμβάνουν μια κανονική κατανομή δεδομένων. Μη-παραμετρικοι ταξινομητές επόπτες όπως οι Classification and Regression Tree (CART), Support Vector Machine (SVM) and Artificial Neural Network (ANN) ταξινομητές δεν φτιάχνουν τις παραδοχές σχετικά με την κατανομή συχνότητας και, ως εκ τούτου γίνονται όλο και πιο δημοφιλείς για την ταξινόμηση τηλεπισκοπικών δεδομένων, τα οποία σπάνια έχουν κανονικές κατανομές. Επειδή η φύση και τα αίτια της χωρικής διακύμανσης σε εικόνες, δεν είναι κατανοητά, η ανάλυση περιορίστηκε στην εμπειρική σχέση μεταξύ του φαινομένου της επιφάνειας και τα μοτίβα στις εικόνες, με την σιωπηρή παραδοχή ότι η πραγματικότητα έχει μια σταθερή φασματική απόκριση σε εικόνες. Αυτή η υπόθεση συχνά παραβιάζεται, ωστόσο, ως συνέπεια της πολύπλοκης αλληλεπίδρασης μεταξύ των διαφόρων παραγόντων όπως οι πολύπλοκες σκηνές, η κλίμακα και η ομαδοποίηση. Οι συνολικοί ταξινομητές μπορούν να βασίζονται σε ατομικό ταξινομητής - επόπτη ή σε έναν αριθμό διαφορετικών ταξινομητών - επόπτων που εκπαιδεύονται χρησιμοποιώντας ενσάκιση ή την ενίσχυση προσεγγίσεων ή παραλλαγές αυτών των προσεγγίσεων.

2.1. Ταξινομητής RF

Ο ταξινομητής RF είναι ένα σύνολο ταξινομητών που χρησιμοποιούν μια σειρά από Classification and Regression Tree (CART) για να κάνει μια πρόβλεψη. Τα δέντρα που δημιουργούνται από την κατάρτιση ενός υποσυνόλου δοκιμαστικών δειγμάτων μέσω της αντικατάστασης (προσέγγιση ενσακκίσεως). Αυτό σημαίνει ότι το ίδιο δείγμα μπορεί να επιλεγεί αρκετές φορές, ενώ άλλοι δεν μπορούν. Δύο παράμετροι πρέπει να ρυθμιστούν ώστε να παραχθούν τα δέντρα στο δάσος: ο αριθμός των δέντρων απόφασης που πρόκειται να παραχθούν (Ntree) και ο αριθμός των μεταβλητών που πρέπει να επιλέγονται και να ελέγχονται για την καλύτερη διάσπαση, όταν αυξάνονται τα δέντρα (Mtry) . Θεωρητική και εμπειρική έρευνα κατέδειξε ότι η ακρίβεια ταξινόμησης επηρεάζει λιγότερο το Ntree από την παράμετρο Mtry. Η πλειοψηφία των μελετών που αναφέρονται στο παρόν άρθρο χρησιμοποίούν το MDA για τον προσδιορισμό του VI.

3. Τυχαίες εξελίξεις των δασών (RF) στην τηλεπισκόπηση

3.1. Χρήση RF για να συλλεχθούν πληροφορίες από πολυφασματική, ραντάρ, LiDAR και θερμική εικόνα τηλεπισκόπησης

Ο ταξινομητής RF έχει χρησιμοποιηθεί με επιτυχία για τη χαρτογράφηση LC και αστικών κτιρίων , για την ταξινόμηση των εντόμων σε επίπεδο αποφύλλωσης χρησιμοποιούν τη ακριανή κόκκινη ζώνη μιας εικόνας RapidEye για να χαρτογραφήσει δασικούς οικότοπους χρησιμοποιώντας WorldView-2 εικόνες , για τη χαρτογράφηση της βιομάζας με τη χρήση Landsat διαχρονικών δεδομένων, για την ταξινόμηση των αστικών αδιαπέραστων επιφανειών από μίας ημέρας δεδομένα MODIS, για τον προσδιορισμό της υγείας ενός δέντρου χρησιμοποιούμε IKONOS δεδομένα και να χαρτογραφήσει δέντρο κάλυψης και χρήση βιομάζας με μονοχρονικές και πολυχρονικές Landsat 8 εικόνες. Ο ταξινομητής RF έχει επίσης χρησιμοποιηθεί με επιτυχία για τη χαρτογράφηση πετρελαιοκηλίδων από SAR δεδομένα και για τις LC ταξινομήσεις τόσο από πολυχρονικά SAR δεδομένα και PolSAR δεδομένα.

3.2. Εφαρμογή του ταξινομητής RF σε υπερφασματικές εικόνες

Η ταξινόμηση των υπερφασματικών δεδομένων αμφισβητείται των υψηλών διαστάσεών της. Το πρόβλημα αυτό ενισχύεται από το σχετικά μικρό ποσό των δεδομένων που είναι διαθέσιμα και οδηγεί σε αύξηση του αριθμού των εσφαλμένων ταξινομήσεων. Ως εκ τούτου, υπερφασματικοί εφαρμογών τηλεπισκόπησης απαιτούν λύσεις που είναι σε θέση να καταργήσουν τις περιττές και θορυβώδης ζώνες συχνοτήτων. Ο ταξινομητής RF έχει δοκιμαστεί ως χαρακτηριστική τεχνική στο χώρο βελτιστοποίησης με ικανοποιητικά αποτελέσματα σε πολλές εφαρμογές, όπως η χαρτογράφηση ειδών δέντρων, LC, χωροκατακτητικά φυτών, πεύκα που χτυπήθηκαν από κεραυνό, είδη χόρτου και άλλα.

3.3. Δεδομένα ταξινομητής RF και δεδομένα multi-source τηλεπισκόπησης

Η τηλεπισκόπησης δεδομένων από μόνη της δεν είναι πάντα επαρκής για την ταξινόμηση των αντικειμένων-στόχων. Μια σειρά από μελέτες έχουν ως εκ τούτου αξιολογήσει το αντίκτυπο της χρήσης είτε εικόνες που αποκτώνται από διαφορετικούς αισθητήρε;, ή τηλεπισκοπικά δεδομένα σε συνδυασμό με βοηθητικά γεωγραφικά δεδομένα, όπως πληροφορίες που προέρχονται από τα ψηφιακά δεδομένα ανύψωσης ή του εδάφους στην ταξινόμηση ακρίβειας. Λαμβάνοντας υπόψη την ποικιλομορφία των συνολικών δεδομένων εισόδου που θα μπορούσαν να χρησιμοποιηθούν για τη βελτίωση της κατάταξης, είναι σημαντικό να περιλαμβάνονται μόνο τα πιο σχετικά συνολικά δεδομένα, προκειμένου να μειωθεί η υπολογιστική επιβάρυνση χωρίς να θυσιάζεται η ακρίβεια των αποτελεσμάτων. Σε αυτό το πλαίσιο, ο ταξινομητής RF έχει χρησιμοποιηθεί για να αξιολογήσει τη συμβολή κάθε πηγής δεδομένων με τα αποτελέσματα της κατάταξης. Οι έρευνες που περιγράφονται ανωτέρω βγήκαν τα συμπεράσματα ότι ο ταξινομητής RF μπορεί να χρησιμοποιηθεί με επιτυχία για την ταξινόμηση multisource τηλεπισκόπησης και γεωγραφικών δεδομένων, κυρίως λόγω της υπολογιστικής ταχύτητάς του και επειδή βοηθά στη βελτιστοποίηση του μοντέλου ταξινόμησης

4. Ευαισθησία του ταξινομητή RF σε δείγματα εκπαίδευσης και τα δεδομένα των διαστάσεων

Τα δείγματα που χρησιμοποιούνται για την εκπαίδευση των ταξινομητών εποπτείας πρέπει να πληρούν ορισμένες προϋποθέσεις: (1) τα στοιχεία κατάρτισης και επικύρωσης πρέπει να είναι στατιστικώς ανεξάρτητα, (2) δείγματα κατάρτισης πρέπει να είναι σε ισορροπημένη κατηγορία, (3) δείγματα κατάρτισης πρέπει να είναι αντιπροσωπευτικές των κατηγοριών στόχου, και (4) το δείγμα κατάρτισης πρέπει να είναι αρκετά μεγάλο για να φιλοξενήσει τον αυξανόμενο αριθμό των διαστάσεων των δεδομένων. Κατά τη διερεύνηση των δασών ταξινόμησης, από τα δεδομένα Landsat, η κατάταξη RF ήταν σχετικά ανεπηρέαστη από τα λανθασμένα δεδομένα εκπαίδευσης και τα δεδομένα ισορροπημένης εκπαίδευσης μπορούν να εισαχθούν για να μειώθούν τα λάθη σε αυτές τις τάξεις που θέτουν τις μεγαλύτερες προκλήσεις για τις ταξινομήσεις. Έτσι, τα αποτελέσματα των ερευνών σχετικά με τις επιπτώσεις του σχεδίου δειγματοληψίας σε RF αποτελέσματα ταξινόμησης φαίνεται να είναι αντιφατικά και μια ανάλυση της ευαισθησίας του ταξινομητή RF σε δείγματα εκπαίδευσης εκ τούτου, συνιστάται όταν χρησιμοποιείται ο ταξινομητής για την ταξινόμηση των δεδομένων τηλεπισκόπησης.

5. Συγκρίνοντας τον τυχαίο ταξινομητή δάσους με άλλους ταξινομητές μηχανικής μάθησης

Ένας αριθμός ερευνών έχει διερευνήσει τις διαφορές μεταξύ του ταξινομητή RF και άλλων σύγχρονων ταξινομητών μηχανικής μάθησης όσον αφορά την ακρίβεια των αποτελεσμάτων της κατάταξης, τη στιγμή της κατάρτισης που απαιτείται, και τη σταθερότητα των ταξινομητών αν τα δείγματα εκπαίδευσης ή οι περιοχές μελέτης αλλάξουν. Ο ταξινομητής RF βρέθηκε να έχει υψηλές επιδόσεις δέντρων ταξινόμησης, Binary Hierarchical Classifier (BHC), Linear Discriminant Analysis (LDA), και ταξινομητές ANN, όσον αφορά την ακρίβεια ταξινόμησης. Τα πλεονεκτήματα του ταξινομητή RF πάνω SVM ταξινομητές, αντικειμενοστραφείς μέθοδοι, και MLC. Οι RF και SVM ταξινομητές είναι εξίσου αξιόπιστοι, με τα αποτελέσματα ταξινομητή RF είναι ελαφρώς καλύτεροι για υψηλών δεδομένων εισόδου διαστάσεων, όπως υπερφασματικές εικόνες. Η SVM κατάταξη αποδίδει καλύτερα από ό, τι κατάταξη RF σε Object Based Image Analysis (OBIA). Η SVM ταξινόμηση φαίνεται, ωστόσο, για να είναι πιο ευαίσθητα στην επιλογή χαρακτηριστικών. Και είναι λιγότερο φιλικά προς τον χρήστη, λόγω του αριθμού των κρίσιμων παραμέτρων που πρέπει να ρυθμιστούν. Δημοσιεύθηκαν συγκρίσεις μεταξύ του ταξινομητή RF και άλλων ταξινομητών όπως AdaBoost έχουν αναφερθεί διαφορετικά αποτελέσματα. Οι RF και AdaBoost ταξινομητές και οι δύο έδωσαν παρόμοια αποτελέσματα κατάταξης, αλλά ο αλγόριθμος RF ήταν ταχύτερος για να εκπαιδεύσει. Συγκρίθηκαν τέσσερις βασικές μέθοδοι ταξινόμησης συνόλου (το δέντρο ενσάκισης, RF, AdaBoost δέντρο, και AdaBoost μεθόδους τυχαίων δέντρων) σε έρευνες που συγκεντρώθηκαν για την ταξινόμηση των οικολογικών ζωνών χρησιμοποιώντας TM / ETM + εικόνες. CART επιλέχθηκε ως ο ατομικός ταξινομητής για καθεμία από αυτές τις προσεγγίσεις συνόλου. Η RF και Ada- Boost μέθοδος τυχαίων δέντρων επιτεύχθηκαν παρόμοιες ακρίβειες στο δέντρο ενσάκισης και AdaBoost προσεγγίσεις δέντρων, αλλά με μεγαλύτερη αποτελεσματικότητα (δηλαδή μειωμένο φορτίο υπολογισμού). Τα αποτελέσματα αυτών των ερευνών έδειξαν επίσης ότι το δέντρο AdaBoost και AdaBoost μεθόδους τυχαίων δέντρων απέδωσαν καλύτερα αποτελέσματα ταξινόμησης από το δέντρο ενσάκισης και τις RF μεθόδους. Η μέθοδος RF ξεπέρασε την τόνωση μεθόδων συνόλων δέντρων απόφασης.

6. Μελλοντικές κατευθύνσεις

6.1. Σταθερότητα του ταξινομητή RF

Η σταθερότητα του ταξινομητή RF είναι ένα σημαντικό κριτήριο για την ένταξή της σε επιχειρησιακές ρυθμίσεις. Προηγούμενες μελέτες έχουν αναφέρει ότι η συνολική ακρίβεια ταξινόμησης του ταξινομητή RF μειώνεται όταν ο αλγόριθμος έχει εκπαιδευτεί σε διαφορετικές περιοχές μελέτης. Εξετάστηκε η δυνατότητα μεταφοράς των μοντέλων ταξινόμησης RF που δημιουργούνται για να χαρτογραφήσει τη βλάστηση από αεροφωτογραφίες και Ψηφιακά Μοντέλα Εδάφους (DEMs), καταλήγοντας στο συμπέρασμα ότι το μοντέλο ταξινόμησης δεν ήταν να μεταφερθούν σε νέους τομείς. Η ανάπτυξη υβριδικών μεθοδολογιών ταξινόμησης που ενσωματώνουν τον ταξινομητής RF με σαφώς καθορισμένα μοντέλα που μεταφέρουν τη σημασιολογία των αντικειμένων, και η αξιοποίηση των φασματικών δεικτών (τα οποία έχουν αποδειχθεί ότι είναι πιο σταθερά όταν εφαρμόζονται σε νέες περιοχές μελέτης) θα μπορούσε να παράσχει μία λύση στο προαναφερθέν πρόβλημα.

6.2. Μεταβλητή σημασία και την ευρωστία

Ο καθορισμός χαρακτηριστικού βελτιστοποιημένου χώρου είναι ένα σημαντικό βήμα προς την ανάπτυξη συνεκτικών και λειτουργικών συστημάτων ταξινόμησης μπορεί επίσης να βοηθήσει στο σχεδιασμό μελλοντικών εφαρμογή προσανατολισμένων αισθητήρων. Απαιτούνται περαιτέρω έρευνες για να αξιολογηθεί η ευρωστία του χαρακτηριστικού χώρου που δημιουργήθηκε με τη χρήση του φίλτρου ή ενσωματωμένες μεθόδους επιλογής χαρακτηριστικών. Ένας αριθμός δεικτών ευρωστίας έχει προταθεί στη δημοσιευμένη βιβλιογραφία μπορεί να χρησιμοποιηθεί για την αξιολόγηση της σταθερότητας των επιλεγμένων χαρακτηριστικών. Υπήρξαν πολλές πολύτιμες έρευνες για την προβλεπτική ισχύ μιας ποικιλίας των μεταβλητών σε διαφορετικά σενάρια κατάταξης, αλλά τα αποτελέσματα είναι μάλλον απίθανο να ωφελήσουν την κοινότητα τηλεπισκόπησης, διότι οι μεταβλητές που προσδιορίζονται δεν είναι συστηματικά οργανωμένα σε απευθείας σύνδεση χαρακτηριστικών καταλόγων που μπορούν εύκολα να επαναχρησιμοποιηθούν από όσους ενδιαφέρονται για παρόμοιες έρευνες. Οι αναφερόμενες έρευνες ταξινομήσεις RF έχουν επικεντρωθεί κυρίως στην ανά-pixel ταξινομήσεις, με την έρευνα για τη σύζευξη OBIA με ταξινόμηση RF είναι σχετικά χαμηλή εκπροσώπηση. Ο αυξανόμενος αριθμός των μεταβλητών υπολογίζεται για τα αντικείμενα της εικόνας που δημιουργούνται μέσω κατάτμησης που κάνει την OBIA κατάταξη μια πολύ υποκειμενική και χρονοβόρα εργασία. Η OBIA θα μπορούσε να επωφεληθεί από τη χρήση της μέτρησης VI να βελτιστοποιήσει τη λειτουργία του χώρου.

6.3. Αξιολόγηση της ταξινόμησης ακριβείας

Η αξιολόγηση της ταξινόμησης ακριβείας περιλαμβάνει επιπλέον προσπάθεια και χρόνο για να συλλεχθεί δείγματα επικύρωσης. Το σφάλμα OOB στη μέθοδο RF θα μπορούσε να χρησιμοποιηθεί ως ένα αξιόπιστο μέτρο της ταξινόμησης ακριβείας. Ο ισχυρισμός αυτός πρέπει να ελεγχθεί περαιτέρω χρησιμοποιώντας μια ποικιλία από σύνολα δεδομένων σε διαφορετικά σενάρια εφαρμογής.

6.4. Προσδιορισμός των ακραίων τιμών στα δείγματα εκπαίδευσης

Το δείγμα της μέτρησης εγγύτητας που είναι διαθέσιμο με τον αλγόριθμο RF προσδιορίζει ακραίες τιμές στα δείγματα εκπαίδευσης. Η εγγύτητα μεταξύ δύο δειγμάτων μετράται με την αναλογία του αριθμού των δένδρων που διατηρούνται στον ίδιο τερματικό κόμβο προς το συνολικό αριθμό των δένδρων που παράγονται στο σύνολο. Η χρήση της μέτρησης εγγύτητας επιτρέπει την ταυτοποίηση των μεταβλητών πρωτοτύπων, δηλαδή μεταβλητές που είναι αντιπροσωπευτικές μιας ομάδας δειγμάτων. Υπάρχει ανάγκη για περαιτέρω έρευνες σχετικά με τη χρήση των μετρήσεων της εγγύτητας και η δυνατότητα συνδυασμού τους με άλλα κύρια εποπτεύεται ταξινομητές όπως το SVM ταξινομητές ή ANN.

6.5. Ευρωστία της μεταβλητής σημασίας (VI) είναι ενσωματωμένες στο τυχαίο ταξινομητή δάσους

Πρόσθετες ερωτήσεις που απαιτούν μελλοντική έρευνα αφορούν την ευρωστία της επιλογής χαρακτηριστικών (και το προκύπτον μοντέλο ταξινόμησης RF), όταν ο αριθμός των δειγμάτων εκπαίδευσης είτε αυξάνεται ή μειώνεται ή όταν ο θόρυβος προστίθεται στα χαρακτηριστικά, τη σταθερότητα του VI μέτρου με επαναληπτική ταξινομήσεις, και η ευαισθησία της παραμέτρου Ntree στο χώρο των χαρακτηριστικών (δηλαδή με τον αριθμό των μεταβλητών). Η συσχέτιση μεταξύ των δένδρων (το οποίο είναι ανάλογο με το σφάλμα ταξινόμησης) αυξάνει καθώς ο αριθμός των μεταβλητών για το διαχωρισμό των κόμβων δέντρων αυξάνεται.

6.6. Καινοτόμες προσεγγίσεις για τη βελτίωση της τυχαίας δάσος ταξινομητή

Ένας αριθμός διαφορετικών προσεγγίσεων έχουν προταθεί για τη βελτίωση του ταξινομητή RF. Ερευνήθηκε η κατάταξη RF χρησιμοποιώντας πλάγια μοντέλα δέντρων ως εκπαιδευόμενη βάση και όχι ορθογώνιο μοντέλο δέντρων. Η κατάταξη περιστροφή RF ως ένας νέος τρόπος για την αύξηση της διαφορετικότητας του κάθε δέντρου στην κατάταξη RF από τη συνένωση διαφορετικών χώρων περιστροφή σε ένα μεγαλύτερο χώρο στον κόμβο της ρίζας κατά τη φάση της κατάρτισης. Οι ταξινομητές RF και περιστροφή RF για την ταξινόμηση των δεδομένων Pol- SAR χρησιμοποιώντας τόσο πολωσιμετρικής και χωρικά χαρακτηριστικά (μετρήσεις υφή και μορφολογικών χαρακτηριστικών) και σύγκριση με τα αποτελέσματα της κατάταξης με εκείνα που λαμβάνονται με τη χρήση ταξινόμησης SVM. Η ταξινόμηση περιστροφή RF χωρίζει τις μεταβλητές σε υποσύνολα και ισχύει PCA σε κάθε υποσύνολο των μεταβλητών, προκειμένου να ανακατασκευάσει ένα πλήρη χαρακτηριστικό χώρο για τα δέντρα στο σύνολο ταξινομητών. Οι συγγραφείς κατέληξαν στο συμπέρασμα ότι ο χαρακτηρισμός εκ περιτροπής RF ξεπέρασε RF και SVM ταξινομήσεις, αλλά με το κόστος των αυξημένων υπολογιστικών απαιτήσεων. Κατά την εφαρμογή κατάταξη RF από μόνη της είναι οι κατηγορίες των τόκων που ταξινομούνται χωρίς να λαμβάνεται υπόψη τυχόν συναφείς πληροφορίες (όπως τοπολογία), το οποίο μπορεί να έχει ιδιαίτερη σημασία κατά την ταξινόμηση αντικειμένων σε σύνθετα περιβάλλοντα. Για την αντιμετώπιση αυτού του προβλήματος, ολοκλήρωσαν ένα ταξινομητή RF σε ένα Conditional Random Field (CRF) πλαίσιο για την αστική αντικείμενα. Αυτή η μέθοδος απέδωσε ενθαρρυντικά αποτελέσματα και ως εκ τούτου δικαιολογεί περαιτέρω έρευνα, ειδικά σε σενάρια όπου θα πρέπει να προσδιορίζονται τα αντικείμενα με υψηλή ενδομεταβλητότητα.

7. Περίληψη

Ο ταξινομητής RF είναι λιγότερο ευαίσθητος από άλλους ταξινομητές Streamline μηχανής μάθησης, στην ποιότητα των δειγμάτων κατάρτισης, λόγω του μεγάλου αριθμού των δένδρων απόφασης που παράγονται από την τυχαία επιλογή ενός υποσυνόλου δειγμάτων εκπαίδευσης και ένα υποσύνολο των μεταβλητών για το διαχωρισμό σε κάθε κόμβο του δένδρου. Ο ταξινομητής RF έχει αποδειχθεί ότι είναι κατάλληλος για την ταξινόμηση υπερφασματικών δεδομένων, όπου η κατάρα των διαστάσεων και ο υψηλός βαθμός συσχέτισης των δεδομένων θέτουν μεγάλες προκλήσεις σε άλλες διαθέσιμες μεθόδους ταξινόμησης. Πρόσθετες εσωτερικές μετρήσεις που παρέχονται από τον παρόν ταξινομητή (όπως το VI) έχουν επίσης χρησιμοποιηθεί εκτεταμένα για να επιλεχθούν οι βέλτιστες μεταβλητές υπολογίζοντας μόνο ένα αισθητήρα, από πολλούς διαφορετικούς αισθητήρες, ή από ένα συνδυασμό της τηλεπισκόπησης και των γεωγραφικών δεδομένων. Μια σειρά από συγγραφείς έχουν αναφερθεί με τη χρήση της μέτρησης VI για τον εντοπισμό των πλέον κατάλληλων εποχών για τον εντοπισμό επιθυμητών τάξεων. Ένας μεγάλος αριθμός ερευνών που επανεξετάζονται εδώ έχουν εξετάσει την ευαισθησία του ταξινομητή RF στις δύο παραμέτρους που πρέπει να ρυθμιστούν. Παρά το γεγονός ότι η κατάταξη RF είναι ανθεκτική στα υψηλής διαστάσεως δεδομένα, πολλοί συγγραφείς έχουν συστήσει μια επαναληπτική διαδικασία αποβολής χαρακτηριστικών για να μειωθεί ο αριθμός των λιγότερο σχετικών μεταβλητών μέχρις ότου η εσωτερική ακρίβεια (υπολογίζεται βάσει του σφάλματος OOB) δεν είναι πλέον ποικίλλα. Χρησιμοποιώντας αυτή την προσέγγιση αυξάνει σημαντικά την ακρίβεια ταξινόμησης. Η ευαισθησία της ταξινόμησης RF για το σχεδιασμό της δειγματοληψίας πρέπει να ληφθεί υπόψη προκειμένου να μειωθεί εσφαλμένη ταξινόμηση.