Capítulo 4. Preprocesamientoautomatizado de datos e ingeniería de características
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Nunca olvidaré el proyecto que me enseñó el costo real de un mal preprocesamiento de datos. Era 2006, y yo trabajaba como consultor para una startup de optimización de precios que quería predecir el riesgo de reingreso de pacientes para un proyecto de fijación de precios de seguros usando sus registros médicos electrónicos. Tres meses después, había dedicado el 80 % de su tiempo a lidiar con problemas de calidad de datos y aún no había entrenado ni un solo modelo significativo. Cuando finalmente automatizamos gran parte del proceso de preprocesamiento utilizando técnicas modernas de AutoML, la transformación fue espectacular: lo que había llevado tres meses de trabajo manual se redujo a tres días de procesamiento automatizado.
Esta experiencia puso de manifiesto una verdad fundamental sobre el aprendizaje automático: el preprocesamiento de datos no es solo un mal necesario, sino que a menudo es el factor más crítico que determina el éxito o el fracaso de un proyecto. El famoso dicho de que los científicos de datos dedican el 80 % de su tiempo a la preparación de datos no es solo una leyenda; ha sido validado por múltiples encuestas del sector. Según una encuesta de CrowdFlower (ahora Appen), los científicos de datos dedican el 80 % de su tiempo a buscar, limpiar y organizar datos. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access