Kapitel 17. Kodierung kategorischer Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Für die statistische Modellierung in R ist die bevorzugte Darstellung für kategoriale oder nominale Daten ein Faktor, eine Variable, die eine begrenzte Anzahl verschiedener Werte annehmen kann; intern werden Faktoren als Vektor ganzzahliger Werte zusammen mit einer Reihe von Textbezeichnungen gespeichert.1 In Kapitel 8 haben wir Feature-Engineering-Ansätze vorgestellt, einschließlich solcher, die qualitative oder nominale Daten in eine Darstellung umwandeln, die für die meisten Modellalgorithmen besser geeignet ist. Wir haben besprochen, wie man eine kategoriale Variable wie Bldg_Type
in unseren Ames-Wohnungsdaten (mit den Stufen OneFam
, TwoFmCon
, Duplex
, Twnhs
und TwnhsE
) in eine Reihe von Dummy- oder Indikatorvariablen umwandelt, wie sie in Tabelle 17-1 dargestellt sind.
Rohdaten | TwoFmCon | Duplex | Twnhs | TwnhsE |
---|---|---|---|---|
OneFam | 0 | 0 | 0 | 0 |
TwoFmCon | 1 | 0 | 0 | 0 |
Duplex | 0 | 1 | 0 | 0 |
Twnhs | 0 | 0 | 1 | 0 |
TwnhsE | 0 | 0 | 0 | 1 |
Viele Modellimplementierungen erfordern eine solche Umwandlung in eine numerische Darstellung für kategoriale Daten.
Hinweis
Im Anhang findest du eine Tabelle mit empfohlenen Vorverarbeitungstechniken für verschiedene Modelle. Beachte, dass viele der Modelle in der Tabelle eine numerische Kodierung ...
Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.