Statistiques pratiques pour les scientifiques des données, 2e édition.
by Peter Bruce, Andrew Bruce, Peter Gedeck
Chapitre 5. La classification
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les scientifiques des données sont souvent chargés d'automatiser les décisions pour résoudre les problèmes de l'entreprise. Un courriel est-il une tentative d'hameçonnage ? Un client est-il susceptible de se désabonner ? L'internaute est-il susceptible de cliquer sur une publicité ? Ce sont tous des problèmes de classification, une forme d'apprentissage supervisé dans laquelle nous formons d'abord un modèle sur des données dont le résultat est connu, puis nous appliquons le modèle à des données dont le résultat n'est pas connu. La classification est peut-être la forme la plus importante de prédiction : l'objectif est de prédire si un enregistrement est un 1 ou un 0 (hameçonnage/pas hameçonnage, cliquer/ne pas cliquer, désabonnement/ne pas désabonner), ou dans certains cas, l'une de plusieurs catégories (par exemple, le filtrage de ta boîte de réception par Gmail en "primaire", "social", "promotionnel" ou "forums").
Souvent, nous avons besoin de plus qu'une simple classification binaire : nous voulons connaître la probabilité prédite qu'un cas appartienne à une classe. Plutôt que de demander à un modèle d'attribuer simplement une classification binaire, la plupart des algorithmes peuvent renvoyer un score de probabilité (propension) d'appartenance à la classe d'intérêt. En fait, avec la régression logistique, la sortie ...