Systèmes de production à apprentissage automatique
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Chapitre 5. Étiquetage avancé, augmentation et prétraitement des données
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les sujets abordés dans ce chapitre sont particulièrement importants pour façonner tes données afin d'en tirer le maximum de valeur pour ton modèle, surtout dans un contexte d'apprentissage supervisé. L'étiquetage en particulier peut facilement être l'une des activités les plus coûteuses et les plus chronophages dans la création, la maintenance et l'évolution d'une application de ML. Une bonne compréhension des options disponibles t'aidera à tirer le meilleur parti de tes ressources et de ton budget.
À cette fin, dans ce chapitre, nous discuterons de l'augmentation des données, une classe de méthodes dans lesquelles tu ajoutes plus de données à ton ensemble de données d'entraînement afin d'améliorer l'entraînement, généralement pour améliorer la généralisation en particulier. L'augmentation des données est presque toujours basée sur la manipulation de tes données actuelles pour créer de nouvelles variations, mais toujours valides, de tes exemples.
Nous aborderons également le prétraitement des données, mais dans ce chapitre, nous nous concentrerons sur le prétraitement spécifique à un domaine. Différents domaines, tels que les séries temporelles, le texte et les images, ont des formes spécialisées d'ingénierie des caractéristiques. Nous avons abordé l'une d'entre elles, la tokenisation ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access