Μετρώντας την φτώχεια σε αστικό περιβάλλον με τη χρήση δεδομένων από πολλές πηγές και τον αλγόριθμο Random Forest: H περίπτωση της Guangzhou

Από RemoteSensing Wiki

Μετάβαση σε: πλοήγηση, αναζήτηση

Πρωτότυπος τίτλος:Measuring urban poverty using multi-source data and a random forest algorithm: A case study in Guangzhou
Συγγραφείς:Tong Niu, Yimin Chen, Yuan Yuan
Citation:Tong Niu, Yimin Chen, Yuan Yuan, Measuring urban poverty using multi-source data and a random forest algorithm: A case study in Guangzhou, Sustainable Cities and Society, Volume 54, 2020, 102014, ISSN 2210-6707, [1].
Πηγή:Science Direct
Λέξεις κλειδιά:Urban poverty; Multi-source; Data Poverty Index; General Deprivation Index ;Random forest

Αντικέιμενο και στόχος έρευνας: Η παρούσα έρευνα στοχεύει στην ανάπτυξη ενός δείκτη, ο οποίος προκύπτει από την επεξεργασία big data των social media και τηλεπισκοπησης, για την εκτίμηση της φτώχειας σε αστικό περιβάλλον.


1.Εισαγωγή:
Το 50% του πληθυσμού βρίσκεται συγκεντρωμένο στις αστικές περιοχές. Το ποσοστό αυτό αναμένεται να φτάσει στο 66% έως και το 2050 [15]. Ταυτόχρονα, ένα από τα σημαντικότερα προβλήματα της ανθρωπότητας σε παγκόσμιο επίπεδο, αναδεικνύεται η φτώχεια στις αστικές περιοχές, ενώ αποτελεί και αγκάθι στο δρόμο για την επίτευξη των βιώσιμων στόχων ανάπτυξης [11]. Υπό αυτό το πρίσμα είναι ιδιαίτερα σημαντική η έγκαιρη και έγκυρη εκτίμηση των πληττόμενων περιοχών και του πληττόμενου πληθυσμού για την ανάπτυξη πολιτικών για την αναχαίτιση της φτώχειας και κατ’ επέκταση είναι απαραίτητη και σημαντική η έρευνα του φαινομένου.
2.Σύνδεση με πρότερη έρευνα και ο ρόλος της τηλεπισκόπησης:
Η έρευνα για την φτώχεια βασίζεται κατά κύριο λόγο σε δημογραφικά δεδομένα[5],[8]. Έχουν αναπτυχθεί μια σειρά από δείκτες σε σχέση με την αστική φτώχεια (όπως [18],[1],[16]) , οι οποίες δύνανται να εντοπίσουν τη χωρική κατανομή του φαινομένου σε διάφορα επίπεδα. Ωστόσο, χαρακτηρίζονται από δύο βασικές αδυναμίες: α) τα δημογραφικά δεδομένα συλλέγονται ανά μακρά χρονικά διαστήματα και β) δεν μπορεί να αποτυπώσει την επίδραση του τεχνητού περιβάλλοντος στο φαινόμενο, παρά το γεγονός ότι κρίνεται σημαντική πτυχή του [12],[14]. Οι παραπάνω ανεπάρκειες επιχειρείται να επιλυθούν με τη χρήση των μεγάλων δεδομένων. Έτσι, αξιοποιούνται δεδομένα τηλεπισκόπησης, τα οποία παρέχουν πληθώρα δεδομένων για το τεχνητό περιβάλλον και έχουν χρησιμοποιηθεί ευρέως κοινωνικό οικονομικές συνθήκες όπως η φτώχεια [6],[21]. Κυρίαρχα χρησιμοποιούνται δορυφορικά πολυφασματικά δεδομένα, υψηλής χωρικής διακριτικής ικανότητας [6], αλλά και φωτογραφίες νυχτερινού φωτός οι οποίες χρησιμοποιούνται ευρέως για την μέτρηση της φτώχειας, λόγω του ότι αναπαριστούν επαρκώς τις ανθρώπινες δραστηριότητες [3],[7],[10]. Χρησιμοποιούνται, ακόμη, δεδομένα κοινωνικών δικτύων, όπως τα Points of Interest (POIs) [19], τα οποία αποτυπώνουν τις κοινωνικοοικονομικές συνθήκες στο εσωτερικού του αστικού ιστού. Επίσης, οι αλγόριθμοι της μηχανικής μάθησης έχουν τη δυνατότητα να χειρίζονται τις πολύπλοκες σχέσεις μεταξύ των δεδομένων που εμπλέκονται στην εκτίμηση του φαινομένου. Μεταξύ των αλγορίθμων προκρίνεται ο αλγόριθμος Random Forest ο οποίος δουλεύει ικανοποιητικά με πολυδιάστατα δεδομένα, την πολυσυγγραμμικότητα και είναι λιγότερο ευαίσθητος στην υπερπροσαρμογή [2],[16]. Στην παρούσα έρευνα αξιοποιούνται δεδομένα τηλεπισκόπησης για την παραγωγή δεικτών πτυχών της φτώχειας από διάφορες πηγές, οι οποίοι με τη χρήση του αλγορίθμου RF συγκροτούν τον δείκτη MDPI (Multi-source Data Poverty Index). H χρήση διαφόρων πηγών για τα δεδομένα ευνοεί την ανάδειξη πολλαπλών πτυχών της φτώχειας και μια ολοκληρωμένη προσέγγιση της πολυδιάστατης φτώχειας. Τέλος, σαν επίπεδο αναφοράς χρησιμοποιείται ο δείκτης GDI [9] βάσει δημογραφικών δεδομένων.

Εικόνα 1: Περιοχή μελέτης, Πηγή:Science Direct

3. Περιοχή μελέτης:
Ως περιοχή μελέτης επιλέγεται η πόλη Guangzhou ( Εικόνα 1)στην κεντρική περιοχή της επαρχίας Province, μητρόπολη μιας απο τις πιο εύπορες περιοχές της Κίνας, της Guangdong–Hong Kong–Macao Greater Bay. Στα πλαίσια της έρευνας η πόλη χωρίζεται σε τρεις ομόκεντρες ζώνες: μια αστική (inner city), μια ημιαστική (outer suburb areas) και μια αγροτική ζώνη(outer city areas). Η έρευνα μελετά την αστική και ημιαστική ζώνη στην οποία κατοικεί το 77,83% του πληθυσμού της πόλης.
5. Δεδομένα:
5.1 Δεδομένα τηλεπισκόπησης:
Οι δορυφορικές εικόνες προέρχονται από τον δορυφόρο Landsat 8 και αντλήθηκαν από το site Earth Explorer και αφορούν στην 2015.01.03. Η χωρική ανάλυση των εικόνων είναι 30m .
Οι εικόνες νυχτερινού φωτός NPP-VIIRS DNB (visible infrared imaging radiometer suite day/night band) είναι μηνιαίες και χωρίς σύννεφα (NOAA/NGDC,[2]). Τα μηνιαία σύνθετα απο Γενάρη ως το Δεκέμβρη του 2015 συγχωνεύονται σε ένα ενιαίο, ετήσιο σύνθετο βάσει των μέσων μηνιαίων ψηφιακών τιμών. Ακραίες ψηφιακές τιμές απορρίπτονται και αντικαθίστανται από το μέσο όρο των 8 γειτονικών τους ψηφιακών τιμών.
5.2 Κοινωνικά δεδομένα:
Τα POI δεδομένα αφορούν σε σημεία ενδιαφέροντος υποδομών και υπηρεσιών, όπως εμπορικά κέντρα, σχολικά κτίρια, γραφεία, νοσοκομεία και σταθμούς μετρό. Τα δεδομένα αντλήθηκαν από το Place API of Baidu Maps. Τα δεδομένα σε σχέση με τις τιμές των ενοικίων αντλήθηκαν από την έρευνα των Chen et al. (2016).
5.3 Δημογραφικά δεδομένα:
Τα δημογραφικά δεδομένα προέρχονται από τις κρατικές υπηρεσίες της πόλης και αναφέρονται στον πληθυσμό, την εκπαίδευση, την απασχόληση και τις συνθήκες διαβίωσης. Τα δεδομένα για τη μέτρηση της πραγματικής φτώχειας, δηλαδή ο δείκτης GDI για κάθε κοινότητα της πόλης αντλήθηκαν από την έρευνα των Yuan et al. (2018).
6. Μέθοδος:
Σχηματικά μέθοδος που ακολουθήθηκε στην έρευνα αυτή παρουσιάζεται στην Εικόνα 2:
.

Εικόνα 2:Μέθοδος έρευνας, Πηγή: Science Direct

6.1 Υποδομές και υπηρεσίες:
Τα POI χρησιμοποιούνται για την ανάπτυξη του δείκτη υποδομών και υπηρεσιών, ο οποίος εκτιμά την πρόσβαση των κατοίκων της κάθε κοινότητας σε ουσιώδεις παροχές και υπηρεσίες. Χρησιμοποιείται η μέθοδος εκτίμησης πυρήνα και ο εμπειρικός κανόνας του Silverman [13] για τον υπολογισμό του εύρους. Στη συνέχεια τα αποτελέσματα συγχωνεύθηκαν σε επίπεδο μέσων όρων, έτσι ώστε να αντιπροσωπεύει το σύνολο της κοινότητας.
6.2 Κάλυψη γής:
Βάσει των δορυφορικών εικόνων Landsat 8 υπολογίζονται τρεις κανονικοποιημένοι δείκτες και συγκεκριμένα οι Normalized Difference Vegetation Index (NDVI), ο Normalized Difference Built-up Index (NDBI), και ο Normalized Difference Water Index (NDWI), οι οποίοι υποδεικνύουν την κάλυψη γης σε βλάστηση, σε κτιριακό δυναμικό και υδάτινες επιφάνειες. Οι δείκτες αυτοί είναι ιδιαίτερα χρήσιμοι για την απεικόνιση του τεχνητού αστικού περιβάλλοντος. Οι δείκτες ορίζονται ως εξής :

Εικόνα 3: Δείκτες για την κάλυψη γης, Πηγή:Science Direct


Εικόνα 4: Δείκτης MDPI , Πηγή:Science Direct
Εικόνα 5: Κατανομή δεικτών , Πηγή:Science Direct

, με βάση τα κανάλια της Landsat εικόνας.

6.3 Υφές των κτιρίων: Δομικά χαρακτηριστικά και χαρακτηριστικά σε σχέση με την υφή αξιοποιούνται για τον διαχωρισμό οργανικών, συνωστισμένων και συγκεχυμένων χωρικών μοτίβων έναντι των πιο δομημένων, ταξινομημένων και ομογενών πιο εύπορων αστικών γειτονιών. Για την εξαγωγή των δεδομένων για τα παραπάνω χαρακτηριστικά χρησιμοποιείται το λογισμικό ΕNVI5.1, το οποίο δέχεται τηλεσκοπικά δεδομένα ως είσοδο, μαζί με το πρόσθετο FETEX2. Τέλος, εφαρμόστηκε ανάλυση κύριων συνιστωσών, προκειμένου να διατηρηθεί όσο γίνεται η αρχική πληροφορία και να μειωθούν οι εισερχόμενες μεταβλητές.
6.4 Ένταση των δραστηριοτήτων:
Για τον προσδιορισμό της έντασης των δραστηριοτήτων σε επίπεδο κοινότητας χρησιμοποιούνται οι VIIRS εικόνες. Υλοποιείται ο παρακάτω απλός υπολογισμός:

i=Li/Ai

, L̅i η μέση ψηφιακή τιμή για την για την κοινότητα i, Li το άθροισμα των ψηφιακών τιμών στην κοινότητα i και Ai η φωτιζόμενη περιοχή της κοινότητας i ( αριθμός των pixels με ψηφιακή τιμή θετική)
6.5 Οικιστικά έξοδα:
Το κόστος στέγασης αποτελεί ένα μεγάλο μερίδιο των εξόδων των νοικοκυριών, ειδικότερα των πιο φτωχών. Τα δεδομένα για τα έξοδα ενοικίασης προέρχονται από την έρευνα των Chen et al. (2016). Η μέση μονάδα ενοικίου ανά οικοδομικό τετράγωνο της κάθε κοινότητας εκτιμήθηκαν και συγχωνεύθηκαν για να δημιουργηθεί η μονάδα ενοικίου ανά κοινότητα.
6.6 Random Forest αλγόριθμος:
Στην παρούσα έρευνα χρησιμοποιήθηκε ο αλγόριθμος Random Forest και η πλατφόρμα WEKA για την εξαγωγή του καλύτερου συνδυασμού των παραπάνω δεικτών, για την ανάπτυξη του δείκτη MDPI και με αναφορά τον δείκτη GDI.
7. Αποτελέσματα:
Στην Εικόνα 3 απεικονίζεται η χωρική κατανομή των επιμέρους δεικτών, όπως προέκυψε με χρήση του GIS και της ταξινόμησης Jenks Natural Breaks . Όλοι οι δείκτες, εκτός του δείκτη NDVI και της υφής των κτιρίων που παρουσιάζουν θετική συσχέτιση με τον δείκτη GDI, εμφανίζουν αρνητική συσχέτιση με τον δείκτη GDI. Οπότε, συνολικά, είναι κατάλληλα για την ανάπτυξη του RF μοντέλου.
Στη συνέχεια χρησιμοποιώντας τον συντελεστή συσχέτισης Spearman υπολογίζεται για τους δείκτες MDPI και GDI ο συντελεστής συσχέτισης .954 με p-value of 0.000. Επίσης, το διάμεσο σχετικό σφάλμα είναι της τάξης του 18.3%, αναδεικνύοντας την αξιοπιστία του RF μοντέλου. Τα αποτελέσματα του δείκτη MDPI παρουσιάζονται στην Εικόνα 4.









ΑΝΑΦΟΡΕΣ

1. Alkire, S., & Santos, M. E. (2014). Measuring acute poverty in the developing world: Robustness and scope of the multidimensional poverty index. World Development, 59, 251–274.

2. Belgiu, M., & Dragut, L. (2016). Random forest in remote sensing: A review of applications and future directions. ISPRS Journal of Photogrammetry and Remote Sensing, 114, 24–31. https://doi.org/10.1016/j.isprsjprs.2016.01.011.

3. Cao, X., Wang, J., Chen, J., & Shi, F. (2014). Spatialization of electricity consumption of China using saturation-corrected

4. Chen, Y. M., Liu, X. P., Li, X., Liu, Y. L., & Xu, X. C. (2016). Mapping the fine-scale spatial pattern of housing rent in the metropolitan area by using online rental listings and ensemble learning. Applied Geography, 75, 200–212. https://doi.org/10.1016/j. Apgeog.2016.08.011. 5. Dehury, B., & Mohanty, S. K. (2015). Regional estimates of multidimensional poverty in India. Economics the Open-Access Open-Assessment E-Journal, 9(36), 1–35.

6. Hall, G. B., Malcolm, N. W., & Piwowar, J. M. (2001). Integration of remote sensing and GIS to detect pockets of urban poverty: The case of Rosario, Argentina. Transactions in GIS, 5(3), 235–253.

7. Keola, S., Andersson, M., & Hall, O. (2015). Monitoring economic development from space: Using nighttime light and land cover data to measure economic growth. World Development, 66, 322–334.

8. Klemens, B., Coppola, A., & Shron, M. (2015). Estimating local poverty measures using satellite images: A pilot application to Central America. The World Bank

9. Langlois, A., & Kitchen, P. (2001). Identifying and measuring dimensions of urban deprivation in Montreal: An analysis of the 1996 census data. Urban Studies, 38(1), 119–139.

10. Liu, Z., He, C., Zhang, Q., Huang, Q., & Yang, Y. (2012). Extracting the dynamics of urban expansion in China using DMSP-OLS nighttime light data from 1992 to 2008. Landscape and Urban Planning, 106(1), 62–72.

11. Padda, I. U. H., & Hameed, A. (2018). Estimating multidimensional poverty levels in rural Pakistan: A contribution to sustainable development policies. Journal of Cleaner Production, 197, 435–442.

12. Perdue, W. (2008). Obesity, poverty, and the built environment: Challenges and opportunities. Georgetown Journal on Poverty Law Policy, 15, 821.

13. Silverman, B. W. (2018). Density estimation for statistics and data analysis. Routledge

14. Tung, E. L., Peek, M. E., Makelarski, J. A., Escamilla, V., & Lindau, S. T. (2016). Adult BMI and access to built environment resources in a high-poverty, urban geography. American Journal of Preventive Medicine, 51(5), e119–e127.

15. UN (2014). World urbanization prospects: The 2014 revision-highlights. UN.

16. Wan, C., & Su, S. (2017). China’s social deprivation: Measurement, spatiotemporal pattern and urban applications. Habitat International, 62, 22–42

17. Wang, L., Zhou, X., Zhu, X., Dong, Z., & Guo, W. (2016). Estimation of biomass in wheat using random forest regression algorithm and remote sensing data. The Crop Journal, 4(3), 212–219.

18. Weziak-Bialowolska, D., & Dijkstra, L. (2014). Regional human poverty index: Poverty in the regions of the european. Luxemburg: Publications office of the European Union.

19. Ye, M., Yin, P., Lee, W.-C., & Lee, D.-L. (2011). Exploiting geographical influence for collaborative point-of-interest recommendation. Paper Presented at the Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.

20. Yuan, Y., Xu, M., Cao, X. Y., & Liu, S. J. (2018). Exploring urban-rural disparity of the multiple deprivation index in Guangzhou City from 2000 to 2010. Cities, 79, 1–11. https://doi.org/10.1016/j.cities.2018.02.016.

21. Zhao, X., Yu, B., Liu, Y., Chen, Z., Li, Q., Wang, C., & Wu, J. (2019). Estimation of poverty using random forest regression with multi-source data: A case study in Bangladesh. Remote Sensing, 11(4), 375.

Προσωπικά εργαλεία