Kapitel 17. Kodierung kategorischer Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Für die statistische Modellierung in R ist die bevorzugte Darstellung für kategoriale oder nominale Daten ein Faktor, eine Variable, die eine begrenzte Anzahl verschiedener Werte annehmen kann; intern werden Faktoren als Vektor ganzzahliger Werte zusammen mit einer Reihe von Textbezeichnungen gespeichert.1 In Kapitel 8 haben wir Feature-Engineering-Ansätze vorgestellt, einschließlich solcher, die qualitative oder nominale Daten in eine Darstellung umwandeln, die für die meisten Modellalgorithmen besser geeignet ist. Wir haben besprochen, wie man eine kategoriale Variable wie Bldg_Type in unseren Ames-Wohnungsdaten (mit den Stufen OneFam, TwoFmCon, Duplex, Twnhs und TwnhsE) in eine Reihe von Dummy- oder Indikatorvariablen umwandelt, wie sie in Tabelle 17-1 dargestellt sind.

Tabelle 17-1. Veranschaulichung von binären Kodierungen (d. h. Dummy-Variablen) für einen qualitativen Prädiktor
Rohdaten TwoFmCon Duplex Twnhs TwnhsE
OneFam 0 0 0 0
TwoFmCon 1 0 0 0
Duplex 0 1 0 0
Twnhs 0 0 1 0
TwnhsE 0 0 0 1

Viele Modellimplementierungen erfordern eine solche Umwandlung in eine numerische Darstellung für kategoriale Daten.

Hinweis

Im Anhang findest du eine Tabelle mit empfohlenen Vorverarbeitungstechniken für verschiedene Modelle. Beachte, dass viele der Modelle in der Tabelle eine numerische Kodierung ...

Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.