Parte III. Limpieza y exploración de datos con pandas
En esta parte del libro, en la segunda fase de nuestra cadena de herramientas (véase la Figura III-1), tomamos el conjunto de datos del Premio Nobel que acabamos de raspar con Scrapy en el Capítulo 6 y, primero, lo limpiamos y, después, lo exploramos en busca de pepitas interesantes. Las principales herramientas que utilizaremos son las grandes bibliotecas de Python Matplotlib y pandas.
Nota
La segunda edición de este libro utiliza el mismo conjunto de datos Nobel que se utilizó en la primera. Se consideró que el tiempo disponible se empleaba mejor escribiendo nuevo material y actualizando todas las bibliotecas que cambiando la exploración y el análisis. Dataviz suele implicar trabajar con conjuntos de datos antiguos, y los pocos Nobel adicionales no cambian en absoluto la esencia del material.
pandas se introducirá en los próximos capítulos, junto con su componente básico, NumPy. En el Capítulo 9, utilizaremos pandas para limpiar el conjunto de datos Nobel. Luego, en el Capítulo 11, junto con la biblioteca de trazado de Python Matplotlib, lo utilizaremos para explorarlo.
En la Parte IV, veremos cómo enviar al navegador el conjunto de datos de los Premios Nobel recién depurado, utilizando el servidor web Flask de Python.
Figura III-1. Nuestra cadena de herramientas dataviz: limpieza y exploración de los datos
Consejo
Puedes ...