Capítulo 4. Automatizar el monitoreo de la calidad de los datos con aprendizaje automático
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El aprendizaje automático es un enfoque estadístico que, comparado con las pruebas basadas en reglas y el monitoreo de métricas, tiene muchas ventajas: es escalable, puede detectar cambios desconocidos y, a riesgo de antropomorfizar, es inteligente. Puede aprender de entradas anteriores, utilizar información contextual para minimizar los falsos positivos y, de hecho, comprender tus datos cada vez mejor con el tiempo.
En los capítulos anteriores, hemos explorado cuándo y cómo la automatización con ML tiene sentido para tu estrategia de monitoreo de la calidad de los datos. Ahora es el momento de explorar el mecanismo central: cómo puedes entrenar, desarrollar y utilizar un modelo para detectar problemas decalidad de datos , eincluso explicar aspectos como su gravedad y dónde se producen en tus datos.
En este capítulo, te explicaremos qué enfoque de aprendizaje automático funciona mejor para el monitoreo de la calidad de los datos y te mostraremos el algoritmo (serie de pasos) que puedes seguir para aplicar este enfoque. Responderemos a preguntas como cuántos datos debes muestrear y cómo hacer que los resultados del modelo sean explicables. Es importante advertir que seguir estos pasos no dará como resultado un modelo listo para monitorear datos del mundo real. En el Capítulo ...