Capítulo 8. Servicio de gestión de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Con los datos ya agregados en el lago, estamos listos para centrarnos en la gestión de los datos, que normalmente incluye estructurarlos, limpiarlos, enriquecerlos y validarlos. La gestión es un proceso iterativo para corregir errores, valores atípicos, valores omitidos, valores imputados, desequilibrio de datos y codificación de datos. Cada paso del proceso expone nuevas formas potenciales de "reagrupar" los datos, con el objetivo de generar los valores de datos más sólidos para generar las percepciones. Además, el reordenamiento proporciona información sobre la naturaleza de los datos, lo que nos permite formular mejores preguntas para generar ideas.
Los científicos de datos dedican mucho tiempo y esfuerzo manual al wrangling (como se muestra en la Figura 8-1). Además de llevar mucho tiempo, el wrangling es incompleto, poco fiable y propenso a errores, y presenta varios puntos problemáticos. En primer lugar, los usuarios de datos tocan un gran número de conjuntos de datos durante el análisis exploratorio, por lo que es fundamental descubrir las propiedades de los datos y detectar rápidamente las transformaciones de wrangling necesarias para su preparación. Actualmente, la evaluación de las propiedades de los conjuntos de datos y la determinación del wrangling que debe aplicarse es ad hoc y manual. En segundo lugar, aplicar ...
Get La hoja de ruta de los datos de autoservicio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.