Capítulo 5. Depuración de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hace dos capítulos, en el primer paso del modelo OSEMN para la ciencia de datos, nos ocupamos de la obtención de datos de diversas fuentes. Este capítulo trata del segundo paso: la depuración de datos. Verás, es bastante raro que puedas pasar directamente de la obtención de datos a la exploración o incluso a la modelización de los datos. Hay una plétora de razones por las que tus datos necesitan primero algo de limpieza, o depuración.

Para empezar, puede que los datos no estén en el formato deseado. Por ejemplo, puedes haber obtenido algunos datos JSON de una API, pero necesitas que estén en formato CSV para crear una visualización. Otros formatos habituales son el texto sin formato, HTML y XML. La mayoría de las herramientas de línea de comandos sólo trabajan con uno o dos formatos, por lo que es importante que puedas convertir los datos de un formato a otro.

Una vez que los datos están en el formato deseado, todavía puede haber problemas como valores que faltan, incoherencias, caracteres extraños o partes innecesarias. Puedes solucionarlos aplicando filtros, sustituyendo valores y combinando varios archivos. La línea de comandos es especialmente adecuada para este tipo de transformaciones, porque hay muchas herramientas especializadas disponibles, la mayoría de las cuales pueden manejar grandes cantidades de datos. En este capítulo ...

Get Ciencia de datos en la línea de comandos, 2ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.