Aprendizaje automático fiable
by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood
Capítulo 4. Características y datos de entrenamiento
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
A estas alturas debería estar claro que los modelos proceden de los datos. Este capítulo trata de los datos: cómo se crean, procesan, anotan, almacenan y, en última instancia, se utilizan para crear el modelo. Verás que la gestión y el manejo de los datos crean retos específicos de repetibilidad, manejabilidad y fiabilidad, y haremos algunas recomendaciones concretas sobre cómo abordar esos retos. Para conocer los antecedentes, asegúrate de ver (si aún no lo has hecho) los Capítulos 2 y 3.
Este capítulo trata de la infraestructura que acepta los datos de una fuente y los prepara para ser utilizados por el sistema de entrenamiento. Hablaremos de tres subsistemas funcionales fundamentales implicados en esta tarea: un sistema de características, un sistema de anotaciones humanas y un sistema de metadatos. Ya hemos hablado un poco de los rasgos en el capítulo anterior; otra forma de pensar en ellos es que son características de los datos de entrada, especialmente características que hemos determinado que predicen algo que nos interesa. Las etiquetas son casos específicos de la salida que queremos del modelo que finalmente entrenamos. Se utilizan como ejemplos para entrenar ese modelo. Otra forma de pensar en las etiquetas es que son los valores objetivo o "correctos" para una ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access