Kapitel 4. Die Wohnungsdaten von Ames

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel stellen wir den Ames-Wohnungsdatensatz (De Cock 2011) vor, den wir in den Modellierungsbeispielen dieses Buches verwenden werden. Eine explorative Datenanalyse, wie wir sie in diesem Kapitel durchführen, ist ein wichtiger erster Schritt zur Erstellung eines zuverlässigen Modells. Der Datensatz enthält Informationen zu 2.930 Immobilien in Ames, Iowa, einschließlich Spalten zu folgenden Punkten:

  • Eigenschaften des Hauses (Schlafzimmer, Garage, Kamin, Pool, Veranda, etc.)

  • Standort (Nachbarschaft)

  • Grundstücksinformationen (Bebauungsplan, Form, Größe, etc.)

  • Bewertungen von Zustand und Qualität

  • Verkaufspreis

Die Rohdaten zum Wohnungsbau sind in De Cock (2011) enthalten, aber für unsere Analysen in diesem Buch verwenden wir eine transformierte Version, die immodeldata-Paket verfügbar ist. Diese Version enthält mehrere Änderungen und Verbesserungen an den Daten. Zum Beispiel wurden die Werte für Längen- und Breitengrad für jede Eigenschaft bestimmt. Außerdem wurden einige Spalten so verändert, dass sie für die Analyse besser geeignet sind. Zum Beispiel:

  • Wenn in den Rohdaten ein Haus ein bestimmtes Merkmal nicht hatte, wurde es implizit als fehlend kodiert. Zum Beispiel hatten 2.732 Häuser keine Gasse. Anstatt sie als fehlend zu kennzeichnen, wurden sie in der transformierten Version umbenannt, um anzuzeigen, dass keine Allee vorhanden war.

  • Die kategorialen Prädiktoren wurden in den Faktor-Datentyp von R konvertiert. Obwohl sowohl Tidyverse als auch Base R davon abgerückt sind, Daten standardmäßig als Faktoren zu importieren, ist dieser Datentyp ein besserer Ansatz für die Speicherung qualitativer Daten für die Modellierung als einfache Strings.

  • Wir haben für jedes Haus eine Reihe von Qualitätsdeskriptoren entfernt, da sie eher Ergebnisse als Prädiktoren sind.

Um die Daten zu laden:

library(modeldata) # This is also loaded by the tidymodels package
data(ames)

# or, in one line:
data(ames, package = "modeldata")

dim(ames)
#> [1] 2930   74

Abbildung 4-1 zeigt die Standorte der Grundstücke in Ames. Auf die Standorte wird im nächsten Abschnitt noch einmal eingegangen.

tmwr 0401
Abbildung 4-1. Standorte der Grundstücke in Ames, Iowa.

Die Leere der Datenpunkte im Zentrum von Ames entspricht der Iowa State University.

Hinweis

Unser Ziel bei der Modellierung ist es, den Verkaufspreis eines Hauses auf der Grundlage anderer uns vorliegender Informationen, wie z. B. seiner Eigenschaften und Lage, vorherzusagen.

Eigenschaften von Häusern in Ames erforschen

Beginnen wir unsere explorative Datenanalyse, indem wir uns auf das Ergebnis konzentrieren, das wir vorhersagen wollen: den letzten Verkaufspreis des Hauses (in USD). Wir können ein Histogramm erstellen, um die Verteilung der Verkaufspreise in Abbildung 4-2 zu sehen:

library(tidymodels)
tidymodels_prefer()

ggplot(ames, aes(x = Sale_Price)) +
  geom_histogram(bins = 50, col= "white")
tmwr 0402
Abbildung 4-2. Verkaufspreise von Häusern in Ames, Iowa.

Diese Grafik zeigt uns, dass die Daten rechtsschief sind; es gibt mehr preiswerte Häuser als teure. Der durchschnittliche Verkaufspreis lag bei 160.000 USD und das teuerste Haus bei 755.000 USD. Bei der Modellierung dieses Ergebnisses spricht vieles dafür, dass der Preis logarithmisch transformiert werden sollte. Die Vorteile einer solchen Transformation sind, dass keine Häuser mit negativen Verkaufspreisen vorhergesagt werden und dass Fehler bei der Vorhersage von teuren Häusern das Modell nicht übermäßig beeinflussen. Außerdem kann eine logarithmische Transformation aus statistischer Sicht die Varianz auf eine Weise stabilisieren, die die Schlussfolgerungen legitimer macht. Wir können nun ähnliche Schritte anwenden, um die transformierten Daten zu visualisieren, wie in Abbildung 4-3 dargestellt:

ggplot(ames, aes(x = Sale_Price)) +
  geom_histogram(bins = 50, col= "white") +
  scale_x_log10()
tmwr 0403
Abbildung 4-3. Verkaufspreise von Häusern in Ames, Iowa, nach einer Logarithmentransformation (Basis 10).

Dies ist zwar nicht perfekt, führt aber aus den oben genannten Gründen wahrscheinlich zu besseren Modellen als die Verwendung der untransformierten Daten.

Warnung

Die Nachteile der Umwandlung des Ergebnisses beziehen sich hauptsächlich auf die Interpretation der Modellergebnisse.

Die Einheiten der Modellkoeffizienten sind unter Umständen schwieriger zu interpretieren, ebenso wie die Messgrößen für die Leistung. Der mittlere quadratische Fehler (Root Mean Squared Error, RMSE) ist zum Beispiel eine gängige Leistungskennzahl für Regressionsmodelle. Sie verwendet die Differenz zwischen den beobachteten und den vorhergesagten Werten für ihre Berechnungen. Wenn der Verkaufspreis auf der logarithmischen Skala liegt, liegen diese Differenzen (d. h. die Residuen) ebenfalls auf der logarithmischen Skala. Es kann schwierig sein, die Qualität eines Modells zu verstehen, dessen RMSE auf einer solchen logarithmischen Skala 0,15 beträgt.

Trotz dieser Nachteile verwenden die in diesem Buch verwendeten Modelle die Log-Transformation für dieses Ergebnis. Von diesem Zeitpunkt an wird die Ergebnisspalte im Datenrahmen ames vorloggt:

ames <- ames %>% mutate(Sale_Price = log10(Sale_Price))

Ein weiterer wichtiger Aspekt dieser Daten für unsere Modellierung sind ihre geografischen Standorte. Diese räumlichen Informationen sind auf zwei Arten in den Daten enthalten: eine qualitative Kennzeichnung Neighborhood sowie quantitative Angaben zu Längen- und Breitengraden. Um die räumlichen Informationen zu veranschaulichen, werden in Abbildung 4-4 die Daten aus Abbildung 4-1 mit konvexen Hüllen um die Daten der einzelnen Stadtteile herum dupliziert.

tmwr 0404
Abbildung 4-4. Nachbarschaften in Ames, dargestellt mit einer konvexen Hülle.

Wir können ein paar auffällige Muster erkennen. Erstens gibt es eine Lücke von Datenpunkten im Zentrum von Ames. Das entspricht dem Campus der Iowa State University, wo es keine Wohnhäuser gibt. Zweitens gibt es zwar eine Reihe angrenzender Stadtteile, aber andere sind geografisch isoliert. Wie in Abbildung 4-5 zu sehen ist, liegt Timberland zum Beispiel von fast allen anderen Stadtvierteln getrennt.

Abbildung 4-6 veranschaulicht, dass das Viertel Meadow Village im Südwesten von Ames wie eine Insel in dem Meer von Grundstücken ist, das das Viertel Mitchell ausmacht.

tmwr 0405
Abbildung 4-5. Standorte der Häuser in Timberland.
tmwr 0406
Abbildung 4-6. Standorte der Häuser in Meadow Village und Mitchell.

Ein genauer Blick auf die Karte zeigt auch, dass die Kennzeichnungen der Stadtteile nicht ganz zuverlässig sind. Abbildung 4-7 zeigt zum Beispiel einige Grundstücke, die als in Northridge liegend gekennzeichnet sind, aber von Häusern im angrenzenden Somerset-Viertel umgeben sind.

tmwr 0407
Abbildung 4-7. Standorte der Häuser in Somerset und Northridge.

Außerdem gibt es 10 einzelne Häuser in Crawford, die, wie du in Abbildung 4-8 sehen kannst, nicht in der Nähe der meisten anderen Häuser in diesem Viertel liegen.

tmwr 0408
Abbildung 4-8. Standorte der Häuser in Crawford.

Bemerkenswert ist auch das Viertel "Iowa Department of Transportation (DOT) and Rail Road", das an der Hauptstraße im Osten von Ames liegt und inAbbildung 4-9 dargestellt ist. In diesem Viertel gibt es mehrere Gruppen von Häusern sowie einige Ausreißer in Längsrichtung; die beiden am weitesten östlich gelegenen Häuser sind von den anderen Standorten isoliert.

tmwr 0409
Abbildung 4-9. Häuser, die als Iowa Department of Transportation (DOT) und Rail Road gekennzeichnet sind.

Wie in Kapitel 1 beschrieben, ist es wichtig, eine explorative Datenanalyse durchzuführen, bevor mit der Modellierung begonnen wird. Diese Wohnungsdaten haben Eigenschaften, die interessante Herausforderungen bei der Verarbeitung und Modellierung der Daten mit sich bringen. Viele davon beschreiben wir in späteren Kapiteln, z. B. in Kapitel 17. Zu den grundlegenden Fragen, die in dieser Sondierungsphase untersucht werden können, gehören:

  • Gibt es etwas Ungewöhnliches oder Auffälliges bei den Verteilungen der einzelnen Prädiktoren? Gibt es eine starke Schräglage oder pathologische Verteilungen?

  • Gibt es hohe Korrelationen zwischen den Prädiktoren? Es gibt zum Beispiel mehrere Prädiktoren für die Hausgröße. Sind einige davon redundant?

  • Gibt es Zusammenhänge zwischen den Prädiktoren und den Resultaten?

Viele dieser Fragen werden bei der Verwendung dieser Daten in den kommendenBeispielen erneut aufgeworfen.

Kapitel Zusammenfassung

In diesem Kapitel wurde der Ames-Wohnungsdatensatz vorgestellt und einige seiner Merkmale untersucht. Dieser Datensatz wird in späteren Kapiteln verwendet, um die Syntax von tidymodels zu demonstrieren. Eine explorative Datenanalyse wie diese ist ein wesentlicher Bestandteil eines jeden Modellierungsprojekts; die EDA deckt Informationen auf, die zu einer besseren Modellierungspraxis beitragen.

Der wichtige Code für die Vorbereitung des Ames-Datensatzes, den wir in den folgenden Kapiteln verwenden werden, lautet:

library(tidymodels)
data(ames)
ames <- ames %>% mutate(Sale_Price = log10(Sale_Price))

Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.