Chapitre 4. Prétraitementautomatisé des données et ingénierie des caractéristiques
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Je n'oublierai jamais le projet qui m'a fait comprendre le coût réel d'un mauvais prétraitement des données. C'était en 2006, et j'étais consultant pour une start-up spécialisée dans l'optimisation des prix qui souhaitait prédire le risque de réadmission des patients dans le cadre d'un projet de tarification d'assurance en utilisant ses dossiers médicaux électroniques. Trois mois plus tard, elle avait passé 80 % de son temps à se débattre avec des problèmes de qualité des données et n’avait toujours pas formé un seul modèle significatif. Quand on a enfin automatisé une grande partie du pipeline de prétraitement à l’aide de techniques AutoML modernes, la transformation a été spectaculaire : ce qui avait pris trois mois de travail manuel a été réduit à trois jours de traitement automatisé.
Cette expérience a mis en lumière une vérité fondamentale concernant l'apprentissage automatique : le prétraitement des données n'est pas seulement un mal nécessaire, c'est souvent le facteur le plus déterminant pour la réussite ou l'échec d'un projet. Le célèbre adage selon lequel les data scientists consacrent 80 % de leur temps à la préparation des données n'est pas qu'une légende ; il a été validé par de nombreuses enquêtes menées dans le secteur. Selon une enquête menée par CrowdFlower ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access