第4章 统计

在计算机普及以前,统计用来表示资料科学。但是,使用计算机并没有减弱统计原则对于资料分析的重要性。本章将考察这些统计原则。

描述性统计量是一个函数,它为了概括数值型数据集中的数据元素而从某些角度进行计算。

第3章“资料可视化”曾讲过两个统计量。样本均值\bar{x} 和样本标准差s。它们的公式是:

\bar{x}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}}

s=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{2}}}}

均值概括了资料集的集中趋势,也叫作样本均值平均值。标准差是资料分散的测度。它的平方s2,叫作样本方差(sample variance)。

数据集的最大值(maximum)是数值元素中的最大者,最小值(minimum)是最小者,极差(range)是这两个值的差。

如果w=\left( {{w}_{1}},{{w}_{2}},\cdots ,{{w}_{n}} \right) 是一个向量,元素的个数和数据集相同,那么可以用来定义加权平均(weighted mean):

在线性代数中,这个表达式叫作两个向量 ...

Get Java数据分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.