Capítulo 4. Adquirir un conjunto de datos inicial
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Una vez que tienes un plan para resolver las necesidades de tu producto y has construido un prototipo inicial para validar que el flujo de trabajo y el modelo propuestos son sólidos, es hora de profundizar en tu conjunto de datos. Utilizaremos lo que encontremos para fundamentar nuestras decisiones de modelado. A menudo, comprender bien tus datos conduce a las mayores mejoras de rendimiento.
En este capítulo, empezaremos estudiando formas de juzgar eficazmente la calidad de un conjunto de datos. A continuación, veremos cómo vectorizar los datos y cómo utilizar dicha representación vectorizada para etiquetar e inspeccionar un conjunto de datos de forma más eficaz. Por último, veremos cómo esta inspección debe guiar las estrategias de generación de características.
Empecemos por descubrir un conjunto de datos y juzgar su calidad.
Iterar en conjuntos de datos
La forma más rápida de construir un producto de ML es construir, evaluar e iterar rápidamente sobre los modelos. Los propios conjuntos de datos son una parte esencial de ese éxito de los modelos. Por eso la recopilación, preparación y etiquetado de datos debe considerarse un proceso iterativo, igual que el modelado. Empieza con un conjunto de datos sencillo que puedas reunir inmediatamente, y estate abierto a mejorarlo en función de lo que aprendas.
Este enfoque ...