Capítulo 2. Ensamblar los componentes básicos de un sistema de datos fiable

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Aunque resolver los problemas de calidad de los datos en producción es una habilidad fundamental para cualquier profesional de los datos, a menudo el tiempo de inactividad de los datos puede evitarse casi por completo con los sistemas y procesos adecuados.

Al igual que el software, los datos pueden depender de cualquier número de influencias operativas, programáticas o incluso relacionadas con los datos en diversas etapas del proceso, y basta un cambio de esquema o un empuje de código para que un informe posterior se desorganice.

Como veremos en el Capítulo 8, resolver la calidad de los datos y construir canalizaciones más fiables se divide en tres componentes clave: proceso, tecnologías y personas. En este capítulo, abordaremos el componente tecnológico de esta ecuación, mapeando juntas las piezas dispares de la canalización de datos y lo que se necesita para medir, arreglar y prevenir el tiempo de inactividad de los datos en cada paso.

Los sistemas de datos son ridículamente complejos, con varias etapas en la canalización de datos que contribuyen a este caos. Y a medida que las empresas invierten cada vez más en datos y análisis, la presión para construir a escala obliga a los ingenieros de datos a tener en cuenta la calidad incluso antes de que los datos entren en la cadena. ...

Get Fundamentos de la calidad de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.