Geo Big Data Desde Cero (Parte 3)

Photo by NASA on Unsplash

En este tutorial veremos la aplicación de Apache Spark para realizar una técnica de estratificación multivariada donde usaremos todos los datos sociodemográficos de México a nivel manzana y todos los Negocios registrados en el DENUE.

Estratificación Multivariada de 1.5 Millones de Manzanas
Zoom a la Ciudad de Mérida, Yucatán.

Recuerda que para llegar aquí debiste realizar las instrucciones indicadas en la Parte 1 y 2 de esta serie de tutoriales:

Estratificación Multivariada de Manzanas a Nivel Nacional

Usaremos las siguientes variables para realizar la estratificación de Manzanas.

Es importante aclarar que cada investigador puede definir su propio conjunto de variables, recuerda que puedes consultar el diccionario de datos del SCINCE 2020 en https://bit.ly/3mtot15.

ECO1_R: Porcentaje de población de 12 años y más económicamente activa.

EDU46_R: Porcentaje de población de 25 años y más con al menos un grado aprobado en educación superior.

VIV82_R: Porcentaje de viviendas particulares habitadas que disponen de servicio de televisión de paga.

VIV83_R: Porcentaje de viviendas particulares habitadas que disponen de servicio de películas, música o videos de paga por Internet.

VIV84_R: Porcentaje de viviendas particulares habitadas que disponen de consola de videojuegos.

Abrimos Jupyter Lab:

cd ..
cd ..
conda activate bigdata
jupyter lab
Abel Alejandro Coronado Iruegas, Ph.D.

Father-Husband-Data Scientist-Philosopher-Entrepreneur-Professor in Data Science-MSc Stats #Scala #SatelliteImagery #Python https://www.a2bigdata.com.mx/