IMPROVED DEEP LEARNING-BASED VEHICLE DETECTION FOR URBAN APPLICATIONS USING REMOTE SENSING IMAGERY

Από RemoteSensing Wiki

Μετάβαση σε: πλοήγηση, αναζήτηση

IMPROVED DEEP LEARNING-BASED VEHICLE DETECTION FOR URBAN APPLICATIONS USING REMOTE SENSING IMAGERY

Πηγή:https://www.researchgate.net/publication/374278863_Improved_Deep_Learning-Based_Vehicle_Detection_for_Urban_Applications_Using_Remote_Sensing_Imagery


Συγγραφείς: Mahmoud Ragab , , Hesham A. Abdushkour, Adil O. Khadidos, Abdulrhman M. Alshareef, Khaled H. Alyoubi and Alaa O. Khadidos

ΕΙΣΑΓΩΓΗ

Tα δεδομένα τηλεπισκόπησης (RS) μπορούν να ληφθούν από διαφορετικές πηγές, όπως drones, δορυφόρους, εναέριες πλατφόρμες ή κάμερες σε επίπεδο δρόμου. Κάθε πηγή έχει τα δικά της χαρακτηριστικά, συμπεριλαμβανομένων των φασματικών ζωνών, της χωρικής ανάλυσης και της χρονικής κάλυψης, που μπορεί να επηρεάσουν την απόδοση του αλγόριθμου ανίχνευσης οχήματος. Ο εντοπισμός οχημάτων για αστικές εφαρμογές με χρήση εικόνων τηλεπισκόπησης (RSI) είναι μια δύσκολη αλλά σημαντική εργασία με πολλές εφαρμογές σε πραγματικό χρόνο. Λόγω των δυνατοτήτων του σε διάφορους τομείς, συμπεριλαμβανομένης της διαχείρισης της κυκλοφορίας, του πολεοδομικού σχεδιασμού, της περιβαλλοντικής παρακολούθησης και της άμυνας, η ανίχνευση οχημάτων από δεδομένα RS, όπως εναέριες ή δορυφορικές εικόνες, έχει λάβει μεγαλύτερη έμφαση. Η μηχανική μάθηση (ML), ειδικά η βαθιά μάθηση (DL), έχει αποδειχθεί αποτελεσματική στις εργασίες ανίχνευσης οχημάτων. Ένα συνελικτικό νευρωνικό δίκτυο (CNN) χρησιμοποιείται ευρέως για την ανίχνευση οχημάτων και την αυτόματη εκμάθηση χαρακτηριστικών από τις εικόνες εισόδου. Αυτή η μελέτη αναπτύσσει τη βελτιωμένη ανίχνευση οχήματος με βάση τη βαθιά μάθηση για εφαρμογές αστικών περιοχών χρησιμοποιώντας την τεχνική Remote Sensing Imagery (IDLVD-UARSI). Ο κύριος στόχος της μεθόδου IDLVD-UARSI δίνει έμφαση στην αναγνώριση και ταξινόμηση στόχων οχημάτων στο RSI χρησιμοποιώντας ένα μοντέλο DL συντονισμένο με υπερπαραμέτρους. Για να επιτευχθεί αυτό, ο αλγόριθμος IDLVD-UARSI χρησιμοποιεί ένα βελτιωμένο μοντέλο RefineDet για τη διαδικασία ανίχνευσης και ταξινόμησης οχημάτων. Μόλις εντοπιστούν τα οχήματα, η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας το μοντέλο συνελικτικού αυτοκωδικοποιητή (CAE). Τέλος, εφαρμόζεται ένας αλγόριθμος Quantum-Based Dwarf Mongoose Optimization (QDMO) για να διασφαλιστεί η βέλτιστη διαδικασία συντονισμού υπερπαραμέτρων, καταδεικνύοντας την καινοτομία της εργασίας. Τα αποτελέσματα της προσομοίωσης της τεχνικής IDLVD-UARSI λαμβάνονται σε μια βάση δεδομένων οχημάτων αναφοράς. Οι τιμές προσομοίωσης υποδεικνύουν ότι η τεχνική IDLVD-UARSI ξεπερνά τα άλλα πρόσφατα μοντέλα DL, με μέγιστη ακρίβεια 97,89% και 98,69% στις βάσεις δεδομένων VEDAI και ISPRS Potsdam, αντίστοιχα.

ΠΡΟΤΕΙΝΟΜΕΝΟ ΜΟΝΤΕΛΟ ΕΡΕΥΝΗΤΩΝ

Οι ερευνητές στο παρόν άρθρο εστιάζουν στο σχεδιασμό και την ανάπτυξη της μεθόδου IDLVD-UARSI χρησιμοποιώντας RSI. Ο κύριος στόχος της προσέγγισης IDLVD-UARSI εστιάζει στον εντοπισμό και την ταξινόμηση των οχημάτων σε RSI. Στην τεχνική IDLVD – UARSI , συμπεριλαμβάνονται τρείς κύριες διαδικασίες οι οποίες είναι οι εξής :  Η βελτιωμένη ανίχνευση οχήματος RefineDet  Η ταξινόμηση βάση CAE  Ο συντονισμός υπερπαραμέτρων βάση το QDMO

Eικόνα 1:Συνολική ροή αλγορίθμου IDLVD-UARSI..

Ανίχνευση οχήματος

Το Improved RefineDet χρησιμοποιεί την αρχιτεκτονική VGG16(αλγόριθμος ανίχνευσης και ταξινόμησης αντικειμένων που μπορεί να ταξινομήσει 1000 εικόνες 1000 διαφορετικών κατηγοριών με ακρίβεια 92,7%.) ως δίκτυο κορμού, το οποίο κατασκευάζει ένα σύνολο αγκυρώσεων με λόγο διαστάσεων και κλίμακα από τον χάρτη χαρακτηριστικών μέσω του μοντέλου δημιουργίας αγκύρωσης του RPN(Risk Priority Number) . Μετά από δύο ταξινομήσεις και παλινδρομήσεις, επιτυγχάνει έναν ορισμένο αριθμό πλαισίων οριοθέτησης αντικειμένων, μαζί με τις πιθανότητες ύπαρξης των διαφόρων κλάσεων στο πλαίσιο οριοθέτησης. Η μονάδα ανίχνευσης αντικειμένων (ODM), η μονάδα βελτίωσης αγκύρωσης (ARM) και το μπλοκ σύνδεσης μεταφοράς (TCB) είναι οι τρεις ενότητες του προτεινόμενου αλγορίθμου. Τέλος, η τελική παλινδρόμηση και η ταξινόμηση επιτυγχάνονται με μη μέγιστη καταστολή (NMS).Η ενότητα ARM περιλαμβάνει κυρίως πρόσθετα επίπεδα συνέλιξης και το δίκτυο κορμού, VGG16. Το φίλτρο αρνητικής αγκύρωσης, η εξαγωγή χαρακτηριστικών, η δημιουργία αγκύρωσης και η βελτίωση αγκύρωσης υλοποιούνται από τη μονάδα ARM. Το αρνητικό φίλτρο αγκύρωσης μπορεί αποτελεσματικά να εξαγάγει το αρνητικό πλαίσιο αγκύρωσης και να μετριάσει την ανισορροπία του δείγματος. Στη συνέχεια, το συγχωνευμένο χαρακτηριστικό μετατρέπεται σε χαρακτηριστικά χαμηλότερου επιπέδου μέσω TCB, έτσι ώστε το χαρακτηριστικό χαρτογράφησης χαμηλού επιπέδου που χρησιμοποιείται για ανίχνευση να έχει ένα σημασιολογικό σύνολο δεδομένων υψηλού επιπέδου και να ενισχύει τα αποτελέσματα αιωρούμενων αντικειμένων. Η μονάδα TCB διασυνδέει το ODM και το ARM και στη συνέχεια μεταφέρει τα δεδομένα ARM στο ODM. Όπως η αρχιτεκτονική του FPN, το κοντινό TCB συνδέεται για να αυξήσει το σύνολο σημασιολογικών δεδομένων των χαρακτηριστικών χαμηλότερου επιπέδου και να πραγματοποιήσει τη συγχώνευση χαρακτηριστικών υψηλού και χαμηλού επιπέδου. Η ενότητα ODM περιλαμβάνει κυρίως επίπεδα πρόβλεψης (ταξινόμηση και επίπεδα παλινδρόμησης, π.χ. ., 3 × 3 πυρήνες συνέλιξης) και την έξοδο των TCB. Τα πλαίσια βελτίωσης αγκύρωσης αξιοποιούνται ως είσοδος για την παλινδρόμηση και την ταξινόμηση και, με βάση το NMS, επιλέγεται το τελικό πλαίσιο οριοθέτησης.

Ταξινόμηση οχημάτων

Σε αυτή την εργασία, το μοντέλο CAE χρησιμοποιείται για την αναγνώριση και ταξινόμηση των οχημάτων. Ως παραλλαγή του AE, το CAE ενσωματώνει την ικανότητα του αυτόματου κωδικοποιητή (AE) να αναπαριστά το σύνολο δεδομένων εισόδου και την ικανότητα των CNN να εξάγουν αποτελεσματικά χαρακτηριστικά εικόνας . Ο Anencoder και ο αποκωδικοποιητής είναι δύο μπλοκ NN που χρησιμοποιούνται για την αναδημιουργία της εισόδου. Το κωδικοποιημένο μπλοκ χρησιμοποιείται για την κωδικοποίηση της εισόδου 𝑥 σε κρυφό αποτέλεσμα 𝑙, το οποίο είναι μια συμπιεσμένη μορφή εισόδου. Η διάσταση του κρυφού αποτελέσματος 𝑙 είναι μικρότερη από αυτή της εισόδου 𝑥. Ο αποκωδικοποιητής βασίζεται στην κρυφή έξοδο 𝑙 και παράγει την έξοδο, 𝑥”, στην είσοδο, 𝑥. Η AE εκπαιδεύεται για να ελαχιστοποιεί την ανακατασκευασμένη απώλεια του δικτύου για τη σωστή αναγέννηση της αρχικής εισόδου.

Eικόνα 2:Δομή CAE..

ΕΦΑΡΜΟΓΗ ΜΟΝΤΕΛΟΥ

Η απόδοση της μεθόδου IDLVD-UARSI δοκιμάστηκε χρησιμοποιώντας δύο βάσεις δεδομένων : τη βάση δεδομένων VEDAI και τη βάση δεδομένων ISPRS Potsdam. -Το σύνολο δεδομένων VEDAI περιλαμβάνει ανάλυση εικόνων σε φωτοσύνθετο RGB (1024 X 1024 px) και σχετικές υπέρυθρες (IR) εικόνες σε χωρική ανάλυση 12,5cm. Σε κάθε pixel παρέχονται πληροφορίες για την κατηγορία του οχήματος, οι συντεταγμένες του κέντρου και οι τέσσερις γωνίες των οριοθετημένων πολυγώνων για όλα τα οχήματα της εικόνας. Το VEDAI χρησιμοποιείται για την εκπαίδευση ενός CNN για ταξινόμηση οχημάτων.

Eικόνα 3:Δείγματα αποτελεσμάτων (α) Εισαγωγή εικόνων και (β) ταξινομημένες εικόνες...

-Το σύνολο των δεδομένων Semantic labeling ISPRS Postdam περιλαμβάνει ανάλυση εικόνων (6000 Χ 6000 px) με χωρική ανάλυση 5 cm, που έχουν ληφθεί στην πόλη Postdam (Γερμανία). Παρέχεται μια ολοκληρωμένη αλήθεια εδάφους σε επίπεδο pixel για 24 pixel ανάλυσης. Η βάση δεδομένων VEDAI περιλαμβάνει 3687 δείγματα και η βάση δεδομένων ISPRS Postdam περιλαμβάνει 2244 δείγματα όπως στους ορίζονται στους πίνακες παρακάτω.

Οι ερευνητές χρησιμοποίησαν και τις δύο μεθόδους δεδομένων για να κάνουν ανάλυση του βασικού ζητούμενου τους.

Eικόνα 4:Περιγραφή της βάσης δεδομένων ISPRS και VEDAI Potsdam...
Eικόνα 5:Επιδόσεις στη βάση δεδομένων VEDAI και ISPRS...

VEDAI

Τα παραπάνω σχήματα παρουσιάζουν τα αποτελέσματα της ταξινόμησης της μεθόδου IDLVD-UARSI στη βάση δεδομένων VEDAI και ISPRS. Τα σχήματα που δημιουργήθηκαν από τη βάση δεδομένων VEDAI παρουσιάζουν πως η μέθοδος έχει εντοπίσει και ταξινομήσει και τις εννέα κλάσεις με ακρίβεια. Η επίδοση PR που καταγράφηκε είναι ιδιαιτέρως υψηλή παρουσιάζοντας πως η τεχνική έχει λάβει υψηλότερα αποτελέσματα PR και στις εννέα κατηγορίες. Τα αποτελέσματα δείχνουν ότι το σύστημα IDLVD-UARSI αναγνωρίζει σωστά τα οχήματα. Στο 70% του συνόλου TR, η μέθοδος IDLVD-UARSI δίνει μέση τιμή accuy, precn, recal , Fscore και MCC 97,72%, 85,91%, 72,09%, 74,86% και 75,26%, αντίστοιχα. Επιπλέον, στο 30% του συνόλου TS, η τεχνική IDLVD-UARSI προσφέρει μέση ακρίβεια, precn, ανάκληση, Fscore και MCC 97,89%, 78,78%, 72,86%, 75,35% και 74,42%, αντίστοιχα.

Eικόνα 5:Αποτελέσματα αναγνώρισης οχήματος της τεχνικής IDLVD-UARSI στη βάση δεδομένων VEDAI....

ISPRS

Η μέθοδος IDLVD-UARSI ( δεύτερη μέθοδος ταξινόμησης που χρησιμοποιήθηκε) ταξινόμησε τέσσερις ετικέτες κλάσεων με ακρίβεια. Τα παραπάνω σχήματα για τη συγκεκριμένη ταξινόμηση παρουσιάζουν πως η μέθοδος έχει κερδίσει τη μέγιστη απόδοση PR και στις τέσσερις κατηγορίες δημιουργώντας έτσι πολλά υποσχόμενα αποτελέσματα, με υψηλές τιμές ROC. Τα πειραματικά αποτελέσματα δείχνουν ότι η μέθοδος IDLVD-UARSI ανίχνευσε σωστά τα οχήματα. Στο 70% του συνόλου TR, το σύστημα IDLVD-UARSI εμφανίζει μέση ακρίβεια, precn, ανάκληση, Fscore και MCC 98,69%, 91,92%, 84,48%, 87,72% και 84,96%, αντίστοιχα. Επιπλέον, στο 30% του συνόλου TS, η τεχνική IDLVD-UARSI προσφέρει μέση ακρίβεια, precn, ανάκληση, Fscore και MCC 98,29%, 93,89%, 75,96%, 83,40% και 79,86%, αντίστοιχα.

Eικόνα 5:Αποτελέσματα αναγνώρισης οχήματος της τεχνικής IDLVD-UARSI στη βάση δεδομένων ISPRS....

Αυτά τα αποτελέσματα απόδοσης των μεθόδων που μελετήθηκαν υπογραμμίζονται τα ανώτερα αποτελέσματα της μεθοδολογίας IDLVD-UARSI σε σύγκριση με άλλες μεθόδους. Η βελτιωμένη λύση του αλγορίθμου IDLVD-UARSI οφείλεται στη χρήση συντονισμού υπερπαραμέτρων που βασίζεται σε QDMO, ο οποίος επιλέγει κατάλληλα τις βέλτιστες τιμές για τις υπερπαραμέτρους της παρεχόμενης προσέγγισης CAE. Οι υπερπαράμετροι είναι ρυθμίσεις που δεν μπορούν να μαθευτούν στην εκπαίδευση και έχουν σημαντικό αντίκτυπο στην απόδοση του μοντέλου και η επιλογή της βέλτιστης λύσης οδηγεί στην καλύτερη ακρίβεια. Με την ενσωμάτωση του συντονισμού υπερπαραμέτρων που βασίζεται σε QDMO, το σύστημα IDLVD-UARSI λαμβάνει τις βέλτιστες λύσεις εστιάζοντας σε καλύτερες ρυθμίσεις για τη μέθοδο. Αυτά τα αποτελέσματα διασφαλίζουν τη μεγαλύτερη λύση της μεθοδολογίας IDLVD-UARSI σε σύγκριση με άλλα υπάρχοντα συστήματα

ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΕΡΕΥΝΑΣ

Σε αυτή τη μελέτη, οι ερευνητές εστίασαν στον σχεδιασμό και την ανάπτυξη της μεθόδου IDLVD-UARSI που χρησιμοποιεί RSI. Ο κύριος στόχος της μεθόδου IDLVD-UARSI επικεντρώνεται στον εντοπισμό και την ταξινόμηση στόχων οχημάτων σε RSI. Στην τεχνική IDLVD-UARSI, εμπλέκονται τρεις κύριες διαδικασίες, συγκεκριμένα η βελτιωμένη ανίχνευση οχήματος RefineDet, η ταξινόμηση βάσει CAE και ο συντονισμός υπερπαραμέτρων με βάση το QDMO. Ο σχεδιασμός της τεχνικής QDMO βοηθά στη βέλτιστη διαδικασία συντονισμού υπερπαραμέτρων και βοηθά στην επίτευξη βελτιωμένης απόδοσης. Τα αποτελέσματα της προσομοίωσης της τεχνικής IDLVD-UARSI λαμβάνονται σε μια βάση δεδομένων οχημάτων αναφοράς. Οι τιμές προσομοίωσης υποδεικνύουν ότι ο αλγόριθμος IDLVD-UARSI έχει καλύτερη απόδοση από άλλα πρόσφατα μοντέλα DL υπό διάφορες μετρήσεις. Στο μέλλον, οι ερευνητές τονίζουν πως θα ήθελαν να επεκτείνουν την τεχνική IDLVD-UARSI κάνοντας χρήση προσεγγίσεων σύντηξης χαρακτηριστικών. Επιπλέον, τονίζουν πως ο συνδυασμός πολυτροπικών πηγών δεδομένων, όπως πολυφασματικές εικόνες και δεδομένα LiDAR, προσφέρει πλουσιότερα δεδομένα για ταξινόμηση. Τέλος, επισημαίνουν πως η ανάπτυξη αποτελεσματικών τεχνικών DL κατάλληλων για χρήση περιβαλλόντων τηλεπισκόπησης με περιορισμένους πόρους, όπως δορυφόροι ή drones, είναι κρίσιμη για ταξινόμηση σε πραγματικό χρόνο και σε κάθε συσκευή.

Προσωπικά εργαλεία