第5章 概率论入门:不可能,还是不太可能
在接下来的几个章节中,我们将研究概率论和统计学,它们是现实世界中各种分析场景和数据驱动情景最常用的方法。概率论是预测的基础。我们用概率表示事件发生的可能性。通过概率论,我们能够对现实世界中某些随机性或偶发性事件进行建模。
本章中,我们将讨论以下主题:
- 什么是概率。
- 频率论和贝叶斯方法的区别。
- 如何可视化概率。
- 如何利用概率定理。
- 学会使用混淆矩阵。
在接下来的两个章节中,我们将研究概率定理背后的专业术语,以及如何利用这些知识对随机事件进行建模。
5.1 基本的定义
概率论最基础的概念之一是过程(procedure)。过程指产生某个结果的行动。比如,掷骰子和访问网站。
事件(event)是某个过程产生的一系列结果的合集。比如,掷硬币得到正面朝上的结果或在网站停留4秒后离开。简单事件(simple event)指由某个过程产生的不可再分的事件。比如,掷两次骰子可以被拆分为以下两个简单事件:掷第1次骰子,掷第2次骰子。
样本空间(sample space)指某个过程产生的所有可能的简单事件的集合。比如,连续掷3次硬币,请问样本空间大小是多少?答案是8。因为实验结果只能是以下样本空间中的任何一个:{正正正,正正反,正反反,正反正,反反反,反反正,反正正,反正反}。
5.2 概率
事件的概率(probability)指事件出现的频率或可能性,A表示事件,P(A)表示事件发生的概率。我们定义事件A的概率为:
其中A是待求解的事件。
假设存在由所有可能发生的事件构成的集合(如图5.1中所示的大圆Universe)。任何单一事件 ...
Get 数据科学原理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.