
数据分析
|
63
5.2.1
描述性分析
描述性分析是最简单的一种分析。它对数据集进行定量的描述和汇总,重要的是,它描述
数据样本的数字特征,而避免描述数据所属总体的任何信息。仪表板中展示的数据,如本
周新增成员数量或年初至今的订购量,往往来自描述性分析。
自然要从单变量分析开始介绍。单变量分析指的是描述数据中的单个变量(列或域)。第
2
章介绍了五数概括法,但还有很多与位置(数据的“中间”)、离差(数据的范围)和分布
形状有关的统计量。
最简单但也最重要的一个度量是样本容量。
样本容量
样本中数据点或记录的数量。
位置指标包括下面几种。
均数(平均值)
数据的算术平均值:值的总和除以值的数量。
几何平均值
简称“几何均值”(
geomean
)
,当乘数效应起作用,比如利率逐年波动时,就可以用它
来计算平均值。它是
n
个值的乘积的
n
次方根。例如第一年的利率是
8%
,而之后
3
年
是
6%
,那么利率的平均值就是
6.5%
。
调和平均数
值的倒数的算术平均值再取倒数,一般用于平均速率。例如,如果你以
50
英
里
/
时的
速度开车去往店铺,返程途中因为遭遇堵车,车速只有
20
英
里
/
时,那么你的平均速
度并不是
35
英里
/
时,而是
29
英里
/
时。
中位数
50%
分位数。
众数
最常出现的值。
离散或集中趋势的度量包括下面几种。
最小值
样本中最小的值(
0%
分位数)
。
下四分位数
25%
分位数。有
1/4
的样本值小于它的值。也称四分位低值(
lower hinge
)。