第5章 概率论入门:不可能,还是不太可能

在接下来的几个章节中,我们将研究概率论和统计学,它们是现实世界中各种分析场景和数据驱动情景最常用的方法。概率论是预测的基础。我们用概率表示事件发生的可能性。通过概率论,我们能够对现实世界中某些随机性或偶发性事件进行建模。

本章中,我们将讨论以下主题:

  • 什么是概率。
  • 频率论和贝叶斯方法的区别。
  • 如何可视化概率。
  • 如何利用概率定理。
  • 学会使用混淆矩阵。

在接下来的两个章节中,我们将研究概率定理背后的专业术语,以及如何利用这些知识对随机事件进行建模。

概率论最基础的概念之一是过程(procedure)。过程指产生某个结果的行动。比如,掷骰子和访问网站。

事件(event)是某个过程产生的一系列结果的合集。比如,掷硬币得到正面朝上的结果或在网站停留4秒后离开。简单事件(simple event)指由某个过程产生的不可再分的事件。比如,掷两次骰子可以被拆分为以下两个简单事件:掷第1次骰子,掷第2次骰子。

样本空间(sample space)指某个过程产生的所有可能的简单事件的集合。比如,连续掷3次硬币,请问样本空间大小是多少?答案是8。因为实验结果只能是以下样本空间中的任何一个:{正正正,正正反,正反反,正反正,反反反,反反正,反正正,反正反}。

事件的概率(probability)指事件出现的频率或可能性,A表示事件,P(A)表示事件发生的概率。我们定义事件A的概率为:

图像说明文字

其中A是待求解的事件。

假设存在由所有可能发生的事件构成的集合(如图5.1中所示的大圆Universe)。任何单一事件 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.