Μηχανική Μάθηση για την Πρόβλεψη της Ποιότητας του Αστικού Αέρα

Από RemoteSensing Wiki

Μετάβαση σε: πλοήγηση, αναζήτηση

Άρθρο: Μηχανική Μάθηση για την Πρόβλεψη της Ποιότητας του Αστικού Αέρα Χρησιμοποιώντας Δορυφορικές Ενσωματώσεις του Google AlphaEarth Foundations: Μελέτη Περίπτωσης στο Κίτο, Εκουαδόρ
Συγγραφείς: Cesar Ivan Alvarez, Carlos Andrés Ulloa Vaca, Neptali Armando Echeverria Llumipanta
Πηγή: https://doi.org/10.3390/rs17203472
Ημερομηνία: 17 Οκτώβρη 2025

Εικόνα 1. Περιοχή μελέτης και τοποθεσία των σταθμών παρακολούθησης στο Κίτο
Πίνακας 1. Εκτιμητές απόδοσης (MAE, RMSE, R2) των βέλτιστων μοντέλων για κάθε ρύπο.
Εικόνα 2 α-β.
Εικόνα 2 γ-δ. Διαγράμματα σημαντικότητας χαρακτηριστικών SHAP για τα μοντέλα με την καλύτερη απόδοση ανά ρύπο.


Εικόνα 3. Χωρική κατανομή της προβλεπόμενης συγκέντρωσης NO2
Εικόνα 4. Χωρική κατανομή της προβλεπόμενης συγκέντρωσης SO2



Περίληψη

Η παρούσα μελέτη διερευνά τη χρήση των πολυ-αισθητηριακών "ενσωματώσεων" (embeddings) του θεμελιώδους μοντέλου Google AlphaEarth Foundations (AEF) για την πρόβλεψη ετήσιων συγκεντρώσεων πέντε ατμοσφαιρικών ρύπων NO2, SO2, PM2.5, CO, O3). Ως περιοχή μελέτης επιλέχθηκε το Κίτο του Ισημερινού (2017-2024), μια μητρόπολη σε υψόμετρο 2.850μ. με πολύπλοκη τοπογραφία και έντονο κυκλοφοριακό πρόβλημα. Το κεντρικό ερευνητικό ερώτημα αφορά το κατά πόσον τα συμπυκνωμένα δορυφορικά δεδομένα (embeddings), τα οποία προκύπτουν μέσω βαθιάς μάθησης και όχι από παραδοσιακές φασματικές μπάντες, μπορούν να αντικαταστήσουν τα πολύπλοκα φυσικά μοντέλα διασποράς και τις συμβατικές παρεμβολές. Η μελέτη φιλοδοξεί να προσφέρει ένα κλιμακώσιμο και οικονομικά βιώσιμο πλαίσιο παρακολούθησης της ποιότητας του αέρα, ειδικά σχεδιασμένο για περιοχές με περιορισμένους πόρους (data-scarce regions) και ελλιπή δίκτυα επίγειων μετρήσεων.


Μέθοδοι

Η μεθοδολογική προσέγγιση διαφοροποιείται από τις κλασικές μεθόδους τηλεπισκόπησης καθώς δεν χρησιμοποιεί άμεσα τις τιμές ανακλαστικότητας. Αντ' αυτού, βασίζεται στο σύνολο δεδομένων AlphaEarth Foundations (AEF). Το μοντέλο αυτό πραγματοποιεί σύντηξη δεδομένων (data fusion) από πολλαπλές πηγές: οπτικά δεδομένα από τον Sentinel-2 (για τη φασματική πληροφορία χρήσεων γης), δεδομένα ραντάρ SAR από τον Sentinel-1 (για την αποτύπωση της δομής και τραχύτητας του αστικού ιστού), θερμικά δεδομένα από τον Landsat, καθώς και κλιματικές μεταβλητές από το μοντέλο ERA5. Ως κρίσιμη προεπεξεργασία, τα δεδομένα υπέστησαν χρονική συσσωμάτωση (temporal aggregation) για τη δημιουργία "ετήσιων μέσων συνθέσεων" (annual median composites), εξασφαλίζοντας εικόνες χωρίς κενά και χωρίς επιρροή από τη νέφωση (cloud-free). Μέσω ενός νευρωνικού δικτύου μετασχηματιστών, αυτές οι πληροφορίες συμπυκνώνονται σε 64 συνθετικά κανάλια (bands A00–A63) για κάθε pixel εδάφους, ανάλυσης 10 μέτρων.

Για την ανάπτυξη των προγνωστικών μοντέλων, οι ερευνητές δημιούργησαν ένα σύνολο δεδομένων εκπαίδευσης συνδυάζοντας τα κανάλια A00-A63 χρησιμοποιώντας ως απαραίτητη βάση αναφοράς (ground truth) τις μετρήσεις συγκεντρώσεων από το δίκτυο REEMAQ. Αξιολογήθηκαν τέσσερις κύριοι αλγόριθμοι μηχανικής μάθησης: Support Vector Regression (SVR), Random Forest (RF), Τεχνητά Νευρωνικά Δίκτυα (ANN) και K-Nearest Neighbors (KNN). Η βελτιστοποίηση των υπερ-παραμέτρων έγινε μέσω της μεθόδου Grid Search με διασταυρούμενη επικύρωση (K-fold cross-validation).


Αποτελέσματα

Η στατιστική ανάλυση κατέδειξε ότι ο αλγόριθμος Support Vector Regression (SVR) υπερείχε έναντι των υπολοίπων για τους περισσότερους ρύπους. Για την επιβεβαίωση της ακρίβειας, συγκρίθηκαν οι παρατηρούμενες τιμές με τις προβλεπόμενες, βασιζόμενες στη μέση ετήσια συγκέντρωση ανά σταθμό.

Οι στήλες 'No. Train' και 'No. Test' του Πίνακα 1 αντιστοιχούν στο πλήθος των ετήσιων δειγμάτων που χρησιμοποιήθηκαν για την εκπαίδευση και την αξιολόγηση αντίστοιχα. Τα σημεία για το NO2 και το SO2 συγκεντρώνονται πολύ κοντά στη διαγώνιο (R2 ≈0.71), αποδεικνύοντας την υψηλή προγνωστική ικανότητα του μοντέλου, ενώ τα CO και PM2.5 εμφάνισαν μέτρια συσχέτιση. Αντιθέτως, αξιοσημείωτη είναι η απουσία του Όζοντος (O3) από τις απεικονίσεις, καθώς το μοντέλο απέτυχε πλήρως στην πρόβλεψή του (R2 ≈ 0), γεγονός που επιβεβαιώνει τη δυσκολία εκτίμησης του συγκεκριμένου δευτερογενούς ρύπου σε ετήσια βάση. Για την ερμηνεία του βέλτιστου μοντέλου, η ανάλυση SHAP είναι καθοριστική. Στο διάγραμμα, η οριζόντια θέση κάθε τελείας υποδεικνύει την επίδραση στην πρόβλεψη (δεξιά αύξηση, αριστερά μείωση) και το χρώμα την τιμή του χαρακτηριστικού (κόκκινο υψηλή, μπλε χαμηλή). Παρατηρείται ότι οι υψηλές τιμές σε συγκεκριμένα κανάλια (κόκκινες τελείες δεξιά) αυξάνουν την προβλεπόμενη ρύπανση, υποδηλώνοντας ότι το μοντέλο αναγνωρίζει δορυφορικά σήματα πυκνής δόμησης ή ασφάλτου. Αντιθέτως, χαμηλές τιμές (μπλε τελείες, πιθανώς βλάστηση) μειώνουν την πρόβλεψη, επιβεβαιώνοντας τη φυσική σημασία των δεδομένων. Πρακτικά, η ανάλυση αυτή αποκαλύπτει ότι μεγάλο μέρος της πληροφορίας είναι πλεονάζον, επιτρέποντας την ανάπτυξη απλούστερων μοντέλων στο μέλλον.

Ο οριζόντιος άξονας απεικονίζει τη μέση απόλυτη τιμή SHAP, η οποία δηλώνει πόσο συνεισφέρει κάθε κανάλι embedding (A00–A63) στην πρόβλεψη. Παρατηρείται ότι για τα (a) NO2 και (b) SO2, η πρόβλεψη κυριαρχείται από ένα μικρό υποσύνολο καναλιών, ενώ τα υπόλοιπα έχουν αμελητέα επίδραση. Αντίθετα, στα (c) PM2.5 και (d) CO η επιρροή κατανέμεται πιο ομοιόμορφα. Το εύρημα αυτό αναδεικνύει τον πλεονασμό πληροφορίας (redundancy) στα 64 κανάλια. Τέλος, η εφαρμογή του μοντέλου για την παραγωγή χαρτών ανέδειξε τη χωρική υπεροχή της μεθόδου. Κατασκευάστηκαν χάρτες χωρικής πρόβλεψης για το NO2 και το SO2 σε ανάλυση 10 μέτρων, οι οποίοι αποτύπωσαν τη μεταβλητότητα λεπτής κλίμακας σε όλο το Κίτο, καθώς τα μοντέλα για τους συγκεκριμένους ρύπους πέτυχαν τόσο αποδεκτή όσο και ψηλότερη ακρίβεια. Σε αντίθεση με τις απλές παρεμβολές που "θολώνουν" την πληροφορία, η ανάλυση των 10 μέτρων αποκαλύπτει κρίσιμες λεπτομέρειες. Στον χάρτη του NO2, παρατηρείται έντονος εγκλωβισμός των ρύπων στη λεκάνη της πόλης λόγω της τοπογραφίας των Άνδεων, με τις συγκεντρώσεις να "ακολουθούν" πιστά τη χάραξη των μεγάλων λεωφόρων.

Αντιθέτως, ο χάρτης του SO2 εμφανίζει μια πιο κηλιδωτή κατανομή, εντοπίζοντας συγκεκριμένες βιομηχανικές εστίες ή περιοχές καύσης diesel που δεν εξαρτώνται άμεσα από τη ροή της κυκλοφορίας, αποδεικνύοντας ότι το μοντέλο μπορεί να διακρίνει διαφορετικές πηγές ρύπανσης.


Συμπεράσματα

Η μελέτη καταλήγει ότι η Μηχανική Μάθηση (ML) σε συνδυασμό με θεμελιώδη δορυφορικά μοντέλα (AlphaEarth) αναδιαμορφώνει την περιβαλλοντική παρακολούθηση. Η επιτυχία του αλγορίθμου SVR ( R2 ≈ 0.71) απέδειξε ότι το ML μπορεί να εντοπίσει πολύπλοκες, μη γραμμικές σχέσεις μεταξύ της αστικής δομής και των ρύπων (NO2, SO2), αντικαθιστώντας αποτελεσματικά τα δαπανηρά φυσικά μοντέλα και τους μετεωρολογικούς σταθμούς. Για το CO και τα PM2.5, η μέθοδος προσφέρει μια λύση χαρτογράφησης μεσαίας ακρίβειας, καλύπτοντας το κενό σε περιοχές όπου τα φυσικά μοντέλα είναι ανεφάρμοστα λόγω έλλειψης δεδομένων. Η αξία της μεθόδου ενισχύεται από την ανάλυση SHAP, η οποία προσφέρει διαφάνεια στις αποφάσεις του αλγορίθμου, επιβεβαιώνοντας τη φυσική σημασία των χαρακτηριστικών. Παρότι η ετήσια κλίμακα περιόρισε την πρόβλεψη του όζοντος, η προσέγγιση αυτή αποτελεί ίσως μια λύση για τον Παγκόσμιο Νότο. Προσφέρει ένα οικονομικά αποδοτικό εργαλείο στους φορείς χάραξης πολιτικής για τον εντοπισμό “hotspots" και τον σχεδιασμό βιώσιμων πόλεων, ξεπερνώντας τα εμπόδια των ελλιπών δεδομένων πεδίου.

Προσωπικά εργαλεία