Geo Big Data con Datos Censales
Introducción
En este artículo mostrare un ejemplo de análisis geográfico de todas las manzanas de México, mediante un grid hexagonal a nivel nacional. Usaremos los datos del Censo 2010 del proyecto SCINCE del INEGI (Oficina Nacional de Estadística y Geografía de México). y por supuesto vamos preparando la artillería para analizar los datos del próximo censo 2020 que será publicada la próxima semana: https://censo2020.mx/censo/.
Tradicionalmente este análisis se realizaría usando una herramienta de análisis geográfico como lo puede ser QGis o alguna otra herramienta comercial. Una estrategia mas sofisticada usaría una base de datos con extensiones geográficas como PostgreSQL + PostGIS (https://postgis.net/).
Sin embargo las soluciones anteriores están fuertemente limitadas en el aspecto de escalabilidad horizontal. Pues es complejo extenderlas a un clúster distribuido.
Desde hace algunos años existe una tecnología que ofrece capacidades de procesamiento paralelo y distribuido, llamada Apache Spark (https://spark.apache.org/), que ha tardado en incorporar las capacidades geográficas a su ecosistema. Poco a poco esto ha ido cambiando y es el tema de este tutorial. Apache Spark en su conjunto ha ido madurando incorporando a Python y R como lenguajes de trabajo pues originalmente solamente funcionaba con Scala/Java. Incluso hoy día Spark es un motor optimizado paralelo y distribuido de SQL estándar. Lo cual abre las posibilidades para el procesamiento de datos por un público…