Chapitre 12. La classification
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
La classification est peut-être l'application la plus connue des méthodes bayésiennes, rendues célèbres dans les années 1990 en tant que base de la première génération de filtres anti-spam.
Dans ce chapitre, je vais faire une démonstration de classification bayésienne à l'aide de données recueillies et mises à disposition par le Dr Kristen Gorman à la station de recherche écologique à long terme Palmer en Antarctique (voir Gorman, Williams et Fraser, " Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis) ", mars 2014). Nous utiliserons ces données pour classer les pingouins par espèce.
Données sur les pingouins
J'utiliserai pandas pour charger les données dans une page DataFrame:
importpandasaspddf=pd.read_csv('penguins_raw.csv')df.shape
(344, 17)
L'ensemble de données contient une ligne pour chaque pingouin et une colonne pour chaque variable.
Trois espèces de manchots sont représentées dans l'ensemble de données : Adélie, Chinstrap et Gentoo.
Les mesures que nous utiliserons sont les suivantes :
-
Masse corporelle en grammes (g).
-
Longueur des palmes en millimètres (mm).
-
Longueur du culmen en millimètres.
-
Profondeur du culmen en millimètres.
Si tu ne connais pas le mot "culmen", il désigne lamarge supérieure du bec.
Ces mesures seront plus ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access