Capítulo 5. Gráficos de dispersión
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los gráficos de dispersión se utilizan para mostrar la relación entre dos variables continuas. En un gráfico de dispersión, cada observación de un conjunto de datos se representa mediante un punto. A menudo, un gráfico de dispersión también tendrá una línea que muestra los valores predichos basados en algún modelo estadístico. Añadir esta línea es fácil de hacer con R y el paquete ggplot2, y puede ayudar a dar sentido a los datos cuando las tendencias no son inmediatamente obvias con sólo mirar los puntos.
En los grandes conjuntos de datos de , trazar cada una de las observaciones del conjunto de datos puede dar lugar a un sobretrazado, cuando los puntos se solapan y se ocultan unos a otros. Para solucionar el problema del sobretrazado, probablemente querrás resumir los datos antes de mostrarlos. También veremos cómo hacerlo en este capítulo.
5.1 Hacer un gráfico de dispersión básico
Problema
En quieres hacer un diagrama de dispersión utilizando dos variables continuas.
Solución
Utiliza geom_point()
, y asigna una variable a x
y otra a y
.
Utilizaremos el conjunto de datos heightweight
. Hay varias columnas en este conjunto de datos, pero sólo utilizaremos dos en este ejemplo(Figura 5-1):
library
(
gcookbook
)
# Load gcookbook for the heightweight data set
library
(
dplyr
)
# Show the head of the two columns we'll use in the plot
Get R Graphics Cookbook, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.