Capítulo 7. Limpieza y preparación de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Durante la realización de análisis y modelización de datos, se dedica una cantidad significativa de tiempo a la preparación de los datos: carga, limpieza, transformación y reordenación. A menudo se dice que estas tareas ocupan el 80% o más del tiempo de un analista. A veces, la forma en que se almacenan los datos en archivos o bases de datos no tiene el formato adecuado para una tarea concreta. Muchos investigadores optan por hacer un procesamiento ad hoc de los datos de una forma a otra utilizando un lenguaje de programación de propósito general, como Python, Perl, R o Java, o herramientas de procesamiento de texto de Unix como sed o awk. Afortunadamente, pandas, junto con las características incorporadas del lenguaje Python, te proporciona un conjunto de herramientas de alto nivel, flexibles y rápidas, que te permitirán manipular los datos para darles la forma adecuada.
Si identificas un tipo de manipulación de datos que no aparece en este libro ni en ninguna otra parte de la biblioteca pandas, no dudes en compartir tu caso de uso en una de las listas de correo de Python o en el sitio GitHub de pandas. De hecho, gran parte del diseño y la implementación de pandas han sido impulsados por las necesidades de las aplicaciones del mundo real.
En este capítulo hablo de herramientas para datos que faltan, datos duplicados, manipulación ...
Get Python para el Análisis de Datos, 3ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.