Kubeflow pour l'apprentissage automatique
by Trevor Grant, Holden Karau, Boris Lublinsky, Richard Liu, Ilan Filonenko
Chapitre 5. Préparation des données et des caractéristiques
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les algorithmes d'apprentissage automatique ne valent que ce que valent leurs données d'apprentissage. Obtenir de bonnes données pour la formation implique la préparation des données et des caractéristiques.
La préparation des données est le processus qui consiste à rechercher les données et à s'assurer qu'elles sont valides. Il s'agit d'un processus en plusieurs étapes1 qui peut inclure la collecte des données, l'augmentation, le calcul des statistiques, la validation du schéma, l'élagage des valeurs aberrantes et diverses techniques de validation. Le manque de données peut entraîner un surajustement, l'absence de corrélations significatives, et bien d'autres choses encore. Faire l'effort de collecter plus d'enregistrements et d'informations sur chaque échantillon pendant la préparation des données peut considérablement améliorer le modèle.2
La préparation des caractéristiques (parfois appelée ingénierie des caractéristiques) fait référence à la transformation des données d'entrée brutes en caractéristiques que le modèle d'apprentissage automatique peut utiliser.3 Une mauvaise préparation des caractéristiques peut faire perdre des relations importantes, comme un modèle linéaire dont les termes non linéaires ne sont pas développés, ou un modèle d'apprentissage profond dont l'orientation de ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access