第4章 统计
在计算机普及以前,统计用来表示资料科学。但是,使用计算机并没有减弱统计原则对于资料分析的重要性。本章将考察这些统计原则。
4.1 描述性统计量
描述性统计量是一个函数,它为了概括数值型数据集中的数据元素而从某些角度进行计算。
第3章“资料可视化”曾讲过两个统计量。样本均值和样本标准差s。它们的公式是:
均值概括了资料集的集中趋势,也叫作样本均值或平均值。标准差是资料分散的测度。它的平方s2,叫作样本方差(sample variance)。
数据集的最大值(maximum)是数值元素中的最大者,最小值(minimum)是最小者,极差(range)是这两个值的差。
如果是一个向量,元素的个数和数据集相同,那么可以用来定义加权平均(weighted mean):
在线性代数中,这个表达式叫作两个向量 ...
Get Java数据分析指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.