Capítulo 3. Recopilación, limpieza, transformación y comprobación de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora que conocemos mejor las distintas herramientas necesarias para dar prioridad a la fiabilidad de los datos, vamos a hablar de cómo preparar tus datos para casos de uso en producción teniendo en cuenta la calidad de los datos.

En el Capítulo 2, tratamos parte de la terminología del dominio y recorrimos una taxonomía de dónde se encuentran las pepitas de la calidad de los datos (principalmente metadatos). Aun así, para tener una idea cabal de la calidad de los datos en tu canal de datos, tienes que mirar de extremo a extremo, a todo el ciclo de vida de los datos, tal como persisten en tu organización.

En este capítulo, veremos cómo gestionar los datos antes y mientras están en la cadena de producción mediante cuatro pasos clave que afectan a la calidad general de los datos: recopilación, limpieza, transformación y comprobación. Mientras que la recopilación y la limpieza de datos se refieren al primer paso de la cadena de producción, la transformación y las pruebas abordan la calidad de los datos cuando están a mitad de camino para convertirse en análisis procesables.

Recogida de datos

Cuando se trata de recopilar datos, quizá ningún aspecto de la canalización sea tan importante como el punto de entrada, el lugar más ascendente de cualquier canalización de datos. Definimos ...

Get Fundamentos de la calidad de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.