Recolecta y analiza el Big Data de las Noticias con tu propio Data Lake

En este artículo mostrare como ejecutar en tu equipo personal los componentes básicos de un Data Lake o Lago de Datos en español, con esfuerzo mínimo gracias a la tecnología de contenedores de Docker (https://www.docker.com/). Por cierto si aun no lo tienes instalado, este es buen momento para que lo hagas, en una publicación anterior de este Blog (https://abxda.medium.com/geo-big-data-con-datos-censales-2de6250772a5), hay algunas instrucciones para que lo puedas instalar en un equipo con Windows 10 Professional. Gracias a esta tecnología bastará con ejecutar una sola línea en tu terminal y algo paciencia, tendrás todos los componentes básicos de un Mini Data Lake ejecutándose en tu computadora personal. Con todo eso corriendo en tu Laptop podrás recolectar sistemáticamente miles de artículos de noticias usando la tecnología llamada Apache Airflow (https://airflow.apache.org), creando una base de datos semiestructurada. Todas las noticias recolectadas serán almacenadas en un deposito de objetos basados en la tecnología S3 de Amazon, pero corriendo localmente en tu propio Data Lake con tecnología de Software Libre (https://min.io). Después de eso realizaremos análisis de ese Big Data recolectado mediante PySpark usando Cuadernos de Jupyter Lab (https://jupyter.org), con lo que realizaremos algunos resúmenes y le daremos estructura a los datos para ser puestos en la base de datos relacional PostgreSql (https://www.postgresql.org). Por último, conectaremos una herramienta de Inteligencia de Negocios de última…

--

--

Abel Alejandro Coronado Iruegas, Ph.D.

Father-Husband-Data Scientist-Philosopher-Entrepreneur-Professor in Data Science-MSc Stats #Scala #SatelliteImagery #Python https://www.a2bigdata.com.mx/