Member-only story

Geo Big Data con Datos Censales

16 min readJan 21, 2021

Introducción

En este artículo mostrare un ejemplo de análisis geográfico de todas las manzanas de México, mediante un grid hexagonal a nivel nacional. Usaremos los datos del Censo 2010 del proyecto SCINCE del INEGI (Oficina Nacional de Estadística y Geografía de México). y por supuesto vamos preparando la artillería para analizar los datos del próximo censo 2020 que será publicada la próxima semana: https://censo2020.mx/censo/.

Tradicionalmente este análisis se realizaría usando una herramienta de análisis geográfico como lo puede ser QGis o alguna otra herramienta comercial. Una estrategia mas sofisticada usaría una base de datos con extensiones geográficas como PostgreSQL + PostGIS (https://postgis.net/).

Sin embargo las soluciones anteriores están fuertemente limitadas en el aspecto de escalabilidad horizontal. Pues es complejo extenderlas a un clúster distribuido.

Desde hace algunos años existe una tecnología que ofrece capacidades de procesamiento paralelo y distribuido, llamada Apache Spark (https://spark.apache.org/), que ha tardado en incorporar las capacidades geográficas a su ecosistema. Poco a poco esto ha ido cambiando y es el tema de este tutorial. Apache Spark en su conjunto ha ido madurando incorporando a Python y R como lenguajes de trabajo pues originalmente solamente funcionaba con Scala/Java. Incluso hoy día Spark es un motor optimizado paralelo y distribuido de SQL estándar. Lo cual abre las posibilidades para el procesamiento de datos por un público…

Geo Big Data con Datos Censales

Introducción

Written by Abel Alejandro Coronado Iruegas, Ph.D.

No responses yet