Kapitel 5. Streudiagramme

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Streudiagramme werden verwendet, um die Beziehung zwischen zwei kontinuierlichen Variablen darzustellen. In einer Punktwolke wird jede Beobachtung in einem Datensatz durch einen Punkt dargestellt. Oft enthält ein Streudiagramm auch eine Linie, die die vorhergesagten Werte auf der Grundlage eines statistischen Modells anzeigt. Das Hinzufügen dieser Linie ist mit R und dem ggplot2-Paket ganz einfach und kann dabei helfen, Daten sinnvoll zu interpretieren, wenn die Trends nicht sofort durch das Betrachten der Punkte ersichtlich sind.

Bei großen Datensätzen kann das Plotten jeder einzelnen Beobachtung im Datensatz dazu führen, dass sich die Punkte überschneiden und gegenseitig verdecken. Um das Problem des Überplottens zu lösen, solltest du die Daten vor der Anzeige zusammenfassen. Wie du das machst, erfährst du in diesem Kapitel.

5.1 Erstellen eines einfachen Streudiagramms

Problem

Du möchtest ein Streudiagramm mit zwei kontinuierlichen Variablen erstellen.

Lösung

Verwende geom_point() , und ordne eine Variable x und eine Variable y zu.

Wir werden den Datensatz heightweight verwenden. Dieser Datensatz enthält eine Reihe von Spalten, aber wir werden in diesem Beispiel nur zwei verwenden(Abbildung 5-1):

library(gcookbook) # Load gcookbook for the heightweight data set
library(dplyr)

# Show the head of the two columns we'll ...

Get R Graphics Cookbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.