Capítulo 4. Limpiar datos desordenados
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La mayoría de las veces, los conjuntos de datos estarán desordenados y serán difíciles de visualizar de inmediato. Tendrán valores que faltan, fechas en diferentes formatos, texto en columnas sólo numéricas, varios elementos en las mismas columnas, varias grafías del mismo nombre y otras cosas inesperadas. Mira la Figura 4-1 para inspirarte. No te sorprendas si te encuentras pasando más tiempo limpiando datos que analizándolos y visualizándolos.
Figura 4-1. La mayoría de las veces, los datos brutos parecen desordenados.
En este capítulo, conocerás diferentes herramientas que te ayudarán a tomar decisiones sobre cuál utilizar para limpiar tus datos de forma eficaz. Empezaremos con métodos básicos de limpieza utilizando Google Sheets en "Limpieza inteligente con Google Sheets", "Buscar y reemplazar con espacios en blanco", "Transponer filas y columnas", "Dividir datos en columnas separadas" y "Combinar datos en una columna". Aunque presentamos Google Sheets en nuestros ejemplos, muchos de estos principios (y en algunos casos, las mismas fórmulas) se aplican a Microsoft Excel, LibreOffice Calc, Numbers de Mac u otros paquetes de hojas de cálculo. A continuación, aprenderás a extraer datos de tablas de documentos PDF basados en ...