Integración de los Datos del Censo 2020 usando Python
--
El 25 de enero del 2020 se publicaron los datos del Censo de Población y Vivienda 2020 de México correspondientes al Cuestionario Básico con 221 variables e indicadores a nivel manzana, en el siguiente sitio: (INEGI). Sin duda representa una gran oportunidad para analistas y practicantes de la Ciencia de Datos, pues el nivel de detalle permite generar múltiples análisis y descubrimientos relativos a la población y su distribución a lo largo de todo México.
Sin embargo el INEGI distribuye los datos estadísticos y los geográficos de forma separada, por lo que en este artículo te mostrare como bajar y organizar todos los datos con Python.
Instalar Python (Distribución Anaconda)
El primer paso consiste en tener instalado Python en tu equipo, una de las formas mas robustas para contar con este entorno de trabajo es mediante la distribución llamada Anaconda, basta con entrar a la página de https://www.anaconda.com/products/individual y descargar el instalador correspondiente a tu sistema operativo:
Una vez instalado debes poder abrir una Terminal de tu sistema operativo y presionar el comando:
conda --version
Lo que da como resultado algo similar a la siguiente ventana:
Ahora podemos crear un ambiente virtual de trabajo, lo cual nos permitirá tener todas las librerias necesarias para trabajar con los datos del Censo sin necesidad de romper alguna dependencia en futuros proyectos de Python.
conda create --name cpv2020 python=3.8 -c conda-forge
Con el comando anterior estámos solicitando a anaconda que construya un ambiante de trabajo independiente para trabajar libremente con los paquetes especificos de nuestro proyecto. Nos solicitará aceptar la instalación como se muestra en la siguiente imagen, basta con escribir la letra Y para que proceda a la instalación: