Capítulo 7. Limpiar, transformary aumentar los datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La mayoría de las veces, los datos que encontramos, recopilamos o adquirimos inicialmente no se ajustan del todo a nuestras necesidades de una forma u otra. El formato es incómodo, la estructura de los datos es incorrecta o hay que ajustar sus unidades. Los propios datos pueden contener errores, incoherencias o lagunas. Pueden contener referencias que no entendemos o insinuar posibilidades adicionales que no se realizan. Sea cual sea la limitación, en nuestro afán por utilizar los datos como fuente de conocimiento, es inevitable que tengamos que limpiarlos, transformarlos y/o aumentarlos de alguna manera para sacarles el máximo partido.
Hasta ahora, hemos pospuesto la mayor parte de este trabajo porque teníamos problemas más urgentes que resolver. En el Capítulo 4, nos centramos en sacar los datos de un formato de archivo complicado y convertirlos en algo más accesible; en el Capítulo 6, nuestra prioridad era evaluar a fondo la calidad de nuestros datos, para poder tomar una decisión informada sobre si merecía la pena invertir en su aumento y análisis.
Ahora, sin embargo, ha llegado el momento de arremangarse y comenzar lo que para mí es una especie de segunda fase del trabajo sobre los datos y la calidad: preparar los datos que tenemos para el análisis que queremos realizar. Nuestros datos están en el formato ...
Get Tramitación práctica de datos y calidad de datos en Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.