Capítulo 2. Ensamblar los componentes básicos de un sistema de datos fiable
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Aunque resolver los problemas de calidad de los datos en producción es una habilidad fundamental para cualquier profesional de los datos, a menudo el tiempo de inactividad de los datos puede evitarse casi por completo con los sistemas y procesos adecuados.
Al igual que el software, los datos pueden depender de cualquier número de influencias operativas, programáticas o incluso relacionadas con los datos en diversas etapas del proceso, y basta un cambio de esquema o un empuje de código para que un informe posterior se desorganice.
Como veremos en el Capítulo 8, resolver la calidad de los datos y construir canalizaciones más fiables se divide en tres componentes clave: proceso, tecnologías y personas. En este capítulo, abordaremos el componente tecnológico de esta ecuación, mapeando juntas las piezas dispares de la canalización de datos y lo que se necesita para medir, arreglar y prevenir el tiempo de inactividad de los datos en cada paso.
Los sistemas de datos son ridículamente complejos, con varias etapas en la canalización de datos que contribuyen a este caos. Y a medida que las empresas invierten cada vez más en datos y análisis, la presión para construir a escala obliga a los ingenieros de datos a tener en cuenta la calidad incluso antes de que los datos entren en la cadena. ...