第7章 统计学入门

在本章中,我们将重点介绍任何渴望成为数据科学家的人都需要掌握的统计学知识。

我们将研究如何获取数据,正确对数据进行抽样,以避免在实验中引入偏差。我们还将使用统计学方法对数据进行量化和可视化。通过使用z分数和经验法则,你将学会如何对数据进行标准化,以便更好地进行分析和数据可视化。

在本章中,我们将重点研究以下主题:

  • 如何获取数据,并对数据进行抽样。
  • 测度中心、方差和相对位置。
  • 使用z分数标准化数据。
  • 经验法则。

什么是统计学?这也许是一个奇怪的问题,但我常常惊讶于很多人无法回答这一简单但深刻的问题。统计学经常出现在新闻和报纸上,也经常被用来证明某种观点或者吓唬读者。但统计学究竟是什么呢?

为了回答这一问题,我们需要退一步,先弄清楚为什么我们需要统计学。统计学的目的是对我们所处的现实世界进行解释和建模。为了做到这一点,我们需要了解总体(population)的概念。

我们将“总体”定义为某类试验、事件或模型的全体。通常情况下,“总体”是我们真正研究的对象。比如,如果我们想了解吸烟是否会导致心脏病,那么“总体”就是全世界吸烟的人群。如果我们想研究未成年人饮酒问题,那么“总体”就是所有的未成年人。

我们将“参数(parameter)”定义为描述总体某一特征的度量(数值型)。比如我们想知道所有员工(假设有1 000人)中使用了违禁药品的人的比例,这个问题的结果就被称为参数。

假设我们经调查发现,1 000名员工中有100人使用了违禁药品,那么违禁药品使用率等于10%,参数值就等于10%。

然而,如果员工数量超过1 0000人呢?我们很难追踪每一位员工的违禁药品使用情况。当遇到这种情况时,我们已经不可能直接求解参数,而只能对参数值进行估计。

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.