Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La mayoría de las empresas, cuando alcanzan un tamaño y una escala suficientes, llegan a un punto en el que empiezan a cuestionarse si sus datos son fiables. Observan cifras en los cuadros de mando que no pueden ser exactas; de repente, los modelos de aprendizaje automático empiezan a funcionar mal en producción. La frase "basura dentro, basura fuera" empieza a circular internamente, refiriéndose al problema de crear productos y funciones utilizando datos que pueden contener corrupciones, segmentos perdidos y otras imprecisiones.
Cuando la confianza en los datos de la empresa empieza a degradarse -o quizás nunca ha existido en primer lugar-, es esencial abordar este problema de frente. La calidad de los datos no es algo que mejore mágicamente a medida que la empresa crece; de hecho, sólo empeorará debido a la mayor complejidad. La calidad de los datos, al igual que la calidad del software, debe ser objeto de un monitoreo continuo para que los problemas se solucionen rápidamente en cuanto surjan.
Muchas organizaciones están de acuerdo con esta idea en teoría, pero tienen dificultades para implementar el monitoreo de la calidad de los datos en la práctica, a escala empresarial. Cuando Jeremy y Elliott fundaron Anomalo en 2018, fue debido a la experiencia de primera mano con estos problemas, lo que les llevó a darse cuenta de que los enfoques existentes para ...