
16
|
第
1
章
图 1-2:美国各州人口的箱线图
箱子的顶部和底部分别是第
75
百分位数和第
25
百分位数。箱内的水平线表示的是中位
数。图中的虚线称为
须
(
whisker
)。须从最大值一直延伸到最小值,显示了数据的极差。
箱线图有多种变体,具体细节可参考“
R
文档:boxplot 函数”
5
等资料。在默认情况下,该
R
函数会扩展须到箱子外的最远点,但不会超过四分位距的
1.5
倍。其他软件可能会采用
不同的规则。在须外的所有数据绘制为单个点。
1.5.2
频数表和直方图
变量的频数表将该变量的极差均匀地分割为多个等距分段,并给出落在每个分段中的数值个
数。在
R
语言中,可使用下面命令计算美国人口按州分布的频数表,结果显示在表
1-5
中。
breaks <- seq(from=min(state[["Population"]]),
to=max(state[["Population"]]), length=11)
pop_freq <- cut(state[["Population"]], breaks=breaks,
right=TRUE, include.lowest = TRUE)
table(pop_freq)
注
5
:
R Core Team.
“
R: A Language and Environment for Statistical Computing,
”
R Foundation for Statistical
Computing (2015).