Capítulo 5. Construir un modelo que funcione con datos reales

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 4, compartimos un algoritmo para el monitoreo de la calidad de los datos con aprendizaje automático no supervisado. Una cosa es leer sobre estos pasos, y otra muy distinta construir un modelo que funcione bien en la práctica en cualquier conjunto de datos arbitrario del mundo real. Si no tienes estrategias para tener en cuenta matices como la estacionalidad, las características temporales y las correlaciones entre columnas, tu modelo alertará en exceso o en defecto, a menudo de forma drástica.

Además de conocer los escollos a los que debes prestar atención, tendrás que evaluar continuamente tu modelo comparándolo con datos de referencia para averiguar dónde y cómo mejorar. Compartiremos métodos para la comprobación eficaz de modelos, incluyendo ideas sobre el desarrollo de una biblioteca para introducir el caos en datos perfectamente bien manejados (cue evil laugh).

Retos y mitigación de los datos

Para que tu modelo sea realmente valioso y no ruidoso, necesitarás estrategias para superar los retos que presentan los datos en la naturaleza.

Estacionalidad

Los humanos somos criaturas muy estacionales. Cambiamos nuestros patrones de comportamiento según la hora del día y el día de la semana. Pagamos las facturas más o menos el mismo día cada mes y nos vamos de vacaciones más o menos en la ...

Get Automatizar la supervisión de la calidad de los datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.