Capítulo 11. Explorar datos con pandas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, limpiamos el conjunto de datos de los Premios Nobel que extrajimos de Wikipedia en el Capítulo 6. Ahora es el momento de empezar a explorar nuestro nuevo y brillante conjunto de datos, buscando patrones interesantes, historias que contar y cualquier otra cosa que pueda servir de base para una visualización interesante.
En primer lugar, vamos a intentar despejarnos y examinar detenidamente los datos que tenemos a mano para hacernos una idea general de las visualizaciones sugeridas. El Ejemplo 11-1 muestra la forma del conjunto de datos Nobel, con datos categóricos, temporales y geográficos.
Ejemplo 11-1. Nuestro conjunto de datos depurado sobre los Premios Nobel
[{'category':'Physiology or Medicine','date_of_birth':'8 October 1927','date_of_death':'24 March 2002','gender':'male','link':'http://en.wikipedia.org/wiki/C%C3%A9sar_Milstein','name':'César Milstein''country':'Argentina','place_of_birth':'Bahía Blanca, Argentina','place_of_death':'Cambridge , England','year':1984,'born_in':NaN},...]
Los datos del Ejemplo 11-1 sugieren un número de historias que podríamos querer investigar, entre ellas:
-
Disparidades de género entre los premiados
-
Tendencias nacionales (por ejemplo, qué país tiene más premios en Economía)
-
Detalles sobre los ganadores individuales, como su edad media ...