Kapitel 5. Umgang mit kategorischen Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

5.0 Einleitung

Oft ist es sinnvoll, Objekte nicht nach ihrer Quantität, sondern nach einer bestimmten Qualität zu messen. Wir stellen qualitative Informationen häufig in Kategorien wie Geschlecht, Farben oder Automarken dar. Aber nicht alle kategorischen Daten sind gleich. Gruppen von Kategorien, die keine eigene Ordnung haben, werden nominal genannt. Beispiele für nominale Kategorien sind:

  • Blau, Rot, Grün

  • Mann, Frau

  • Banane, Erdbeere, Apfel

Wenn eine Menge von Kategorien dagegen eine natürliche Ordnung hat, nennen wir sie ordinal. Zum Beispiel:

  • Niedrig, Mittel, Hoch

  • Jung, Alt

  • Zustimmen, Neutral, Nicht zustimmen

Außerdem werden kategorische Informationen in Daten oft als Vektor oder Spalte von Strings dargestellt (z. B. "Maine", "Texas", "Delaware"). Das Problem ist, dass die meisten Algorithmen für maschinelles Lernen numerische Werte als Eingaben benötigen.

Der k-nearest neighbors Algorithmus ist ein Beispiel für einen Algorithmus, der numerische Daten benötigt. Ein Schritt des Algorithmus ist die Berechnung der Abstände zwischen den Beobachtungen - oft unter Verwendung des euklidischen Abstands:

i=1 n (x i -y i ) 2

wobei x und y zwei Beobachtungen sind und der Index i bezeichnet den Wert für die Beobachtungen'ith feature. Die Abstandsberechnung ist jedoch offensichtlich unmöglich, ...

Get Maschinelles Lernen mit Python Kochbuch, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.