Capítulo 2. Preparación de los datos para el análisis

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Las estimaciones sobre el tiempo que los científicos de datos dedican a preparar sus datos varían, pero se puede afirmar con seguridad que este paso ocupa una parte significativa del tiempo dedicado a trabajar con datos. En 2014, el New York Times informó de que los científicos de datos dedican entre el 50% y el 80% de su tiempo a limpiar y manipular sus datos. Una encuesta realizada en 2016 por CrowdFlower reveló que los científicos de datos dedican el 60% de su tiempo a limpiar y organizar los datos con el fin de prepararlos para el trabajo de análisis o modelización. Preparar los datos es una tarea tan común que han surgido términos para describirla, como "munging" de datos, "data wrangling" y "data prep" ("Mung" es un acrónimo de "Mash Until No Good", que yo he hecho en alguna ocasión). ¿Todo este trabajo de preparación de datos es un trabajo sin sentido, o es una parte importante del proceso?

La preparación de datos es más fácil cuando un conjunto de datos tiene un diccionario de datos, un documento o repositorio que tiene descripciones claras de los campos, los posibles valores, cómo se recogieron los datos y cómo se relacionan con otros datos. Por desgracia, a menudo no es así. A menudo no se da prioridad a la documentación, ni siquiera por parte de las personas que ven su valor, o queda desfasada a medida ...

Get SQL para análisis de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.