Kapitel 12. Klassifizierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Klassifizierung ist vielleicht die bekannteste Anwendung der Bayes'schen Methode, die in den 1990er Jahren als Grundlage der ersten Generation von Spamfiltern bekannt wurde.

In diesem Kapitel demonstriere ich die Bayes'sche Klassifizierung anhand von Daten, die Dr. Kristen Gorman an der Palmer Long-Term Ecological Research Station in der Antarktis gesammelt und zur Verfügung gestellt hat (siehe Gorman, Williams und Fraser, "Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis)", März 2014). Wir werden diese Daten nutzen, um Pinguine nach Arten zu klassifizieren.

Pinguin Daten

Ich verwende Pandas, um die Daten in eine DataFrame zu laden:

import pandas as pd

df = pd.read_csv('penguins_raw.csv')
df.shape
(344, 17)

Der Datensatz enthält eine Zeile für jeden Pinguin und eine Spalte für jede Variable.

Drei Pinguinarten sind in dem Datensatz vertreten: Adélie, Chinstrap und Gentoo.

Die Maße, die wir verwenden werden, sind:

  • Körpergewicht in Gramm (g).

  • Flipperlänge in Millimetern (mm).

  • Culmenlänge in Millimetern.

  • Culmen-Tiefe in Millimetern.

Wenn du mit dem Wort "culmen" nicht vertraut bist, bezieht es sich auf denoberen Rand des Schnabels.

Diese Messungen sind für die Klassifizierung am nützlichsten, wenn es große Unterschiede zwischen den Arten und ...

Get Think Bayes, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.