
图形
|
289
10.17.4 另请参阅
单个箱线图是很乏味的。有关创建多个箱线图的信息,请参阅 10.18 节。
10.18 对每个因子水平创建箱线图
10.18.1 问题
数据集包含数值型变量和因子(或其他分类文本)。需要创建多个根据因子水平分类的
数值型变量的箱线图。
10.18.2 解决方案
使用 ggplot,我们将分类变量的名称传递给 aes 中调用的参数 x。然后,生成的箱线
图将按分类变量中的值进行分组:
ggplot(df) +
aes(x = factor, y = values) +
geom_boxplot()
10.18.3 讨论
这个方法是另一种探索和说明两个变量之间关系的好方法。在这种情况下,我们想知道
数值变量是否根据类别的取值而变化。
来自 MASS 包的数据集 UScereal 包含许多关于早餐麦片的变量。一个变量是每份的含
糖量,另一个是货架位置(从地板开始向上计算)。谷物制造商可以就货架位置进行谈
判,将其产品置于最有销售潜力的位置。我们想知道:他们把高糖谷物食品放在哪里?
我们可以生成图 10-43,并通过为每个货架创建一个箱线图来探索该问题:
data(UScereal, package = "MASS")
ggplot(UScereal) +
aes(x = as.factor(shelf), y = sugars) +
geom_boxplot() +
labs(
title = "Sugar Content by Shelf",
x = "Shelf",
y = ...