Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En mi trabajo sobre canalizaciones de datos, el suceso más costoso que he visto se debió a un error: una canalización estuvo transformando datos incorrectamente durante meses, y el problema pasó desapercibido hasta que nuestros clientes se dieron cuenta de que los datos eran erróneos.
Como suele ocurrir, fueron muchos los problemas que condujeron a este resultado. Los datos eran muy variables, lo que dificultaba el monitoreo de su calidad. Teníamos datos de prueba, pero estaban lamentablemente desfasados. La única forma de probar los cambios de código era con una ejecución completa del pipeline, que era larga y costosa. Sabíamos que la fuente de datos podía cambiar de forma impredecible, pero no disponíamos de validación de datos en la canalización para detectar cuándo se producían cambios.
Podríamos haber detectado este error con la validación basada en esquemas, sobre la que aprenderás en este libro. En lugar de eso, gastamos una parte importante de nuestra factura anual en la nube en volver a calcular los datos erróneos. Por si fuera poco, también nos costó la confianza de nuestros clientes, hasta el punto de que se cuestionó la validez del proyecto. Estaba en juego un contrato multimillonario que respaldaba una docena de puestos de trabajo para prestar un servicio que ayudaba a casi 100 millones de personas. Errores de esta magnitud son algo a lo que ...