Aprendizaje automático fiable
by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood
Capítulo 2. Principios de gestión de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este libro, rara vez nos preocupan los detalles algorítmicos de cómo se construyen los modelos o cómo se estructuran. El desarrollo algorítmico más emocionante del año pasado es el mundano ejecutable del año que viene. En lugar de eso, nos interesan sobre todo dos cosas: los datos utilizados para construir los modelos y la cadena de procesamiento que toma los datos y los transforma en modelos.
En última instancia, los sistemas de ML son canalizaciones de procesamiento de datos, y su propósito es extraer información útil y repetible de los datos. Sin embargo, hay algunas diferencias clave entre las canalizaciones de ML y las canalizaciones convencionales de procesamiento o análisis de registros. Las cadenas ML tienen algunas limitaciones muy diferentes y específicas, y fallan de formas distintas. Su éxito es difícil de medir, y muchos fallos son difíciles de detectar. (Fundamentalmente, consumen datos y generan una representación procesada de los mismos (aunque en formas muy diferentes). Como tales, los sistemas de ML dependen total y completamente de la estructura, rendimiento, precisión y fiabilidad de sus sistemas de datos subyacentes. Ésta es la forma más útil de pensar en los sistemas de ML desde el punto de vista de la fiabilidad.
En este capítulo, empezaremos con una inmersión profunda en los propios datos:
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access