Skip to Content
Ciencia de datos en la línea de comandos, 2ª edición
book

Ciencia de datos en la línea de comandos, 2ª edición

by Jeroen Janssens
October 2024
Intermediate to advanced
282 pages
6h 36m
Spanish
O'Reilly Media, Inc.
Content preview from Ciencia de datos en la línea de comandos, 2ª edición

Capítulo 5. Depuración de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hace dos capítulos, en el primer paso del modelo OSEMN para la ciencia de datos, nos ocupamos de la obtención de datos de diversas fuentes. Este capítulo trata del segundo paso: la depuración de datos. Verás, es bastante raro que puedas pasar directamente de la obtención de datos a la exploración o incluso a la modelización de los datos. Hay una plétora de razones por las que tus datos necesitan primero algo de limpieza, o depuración.

Para empezar, puede que los datos no estén en el formato deseado. Por ejemplo, puedes haber obtenido algunos datos JSON de una API, pero necesitas que estén en formato CSV para crear una visualización. Otros formatos habituales son el texto sin formato, HTML y XML. La mayoría de las herramientas de línea de comandos sólo trabajan con uno o dos formatos, por lo que es importante que puedas convertir los datos de un formato a otro.

Una vez que los datos están en el formato deseado, todavía puede haber problemas como valores que faltan, incoherencias, caracteres extraños o partes innecesarias. Puedes solucionarlos aplicando filtros, sustituyendo valores y combinando varios archivos. La línea de comandos es especialmente adecuada para este tipo de transformaciones, porque hay muchas herramientas especializadas disponibles, la mayoría de las cuales pueden manejar grandes cantidades de datos. En este capítulo ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Estadística Práctica para Científicos de Datos, 2ª Edición

Estadística Práctica para Científicos de Datos, 2ª Edición

Peter Bruce, Andrew Bruce, Peter Gedeck
Arquitectura de Plataformas de Datos y Aprendizaje Automático

Arquitectura de Plataformas de Datos y Aprendizaje Automático

Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner

Publisher Resources

ISBN: 9798341603790Supplemental Content