第2章 朴素贝叶斯
朴素贝叶斯分类算法基于贝叶斯定理对集合中的元素进行分类。
A和B是概率事件。P(A)表示A为真的概率。P(A | B)表示B为真时,A为真的条件概率。贝叶斯定理如下所示:
P(A|B)=(P(B|A) * P(A))/P(B)
在P(B)和P(B | A)概率未知时,P(A)是A为真的先验概率。在考虑到B为真的附加条件后,P(A | B)是A为真的后验概率。
本章将学习以下内容:
- 在一个简单的医疗检查例子中,如何以基本的方式使用贝叶斯定理来计算医疗检查的准确率;
- 通过证明贝叶斯定理及扩展来认识其理论本质;
- 在考虑独立与非独立变量的情况下,如何将贝叶斯定理用于西洋棋游戏;
- 在实现朴素贝叶斯分类器章节中,基于贝叶斯定理,用Python实现一个用于计算后验概率的算法;
- 本章的最后,通过解决一个实际问题来判断在何时使用贝叶斯定理作为分析方法是合理的,以验证读者的学习效果。
2.1 医疗检查——贝叶斯定理的基本应用
患者要进行一项特殊的癌症检测,其准确性test_accuracy = 99.9%:如果检测结果为阳性,那么99.9%的受检患者将患上特殊类型的癌症;若结果为阴性,则表示99.9%的患者不会患癌症。
假设一名患者进行了测试并且测试结果呈阳性。该患者患有特殊类型癌症的概率是多少?
[分析]
这里将使用贝叶斯定理找出患者患有癌症的概率:
P(cancer|test_positive)=
(P(test_positive|cancer) * P(cancer))/P(test_positive)
要知道患者患有癌症的先验概率,必须先了解癌症在人群中发生的频率。假设已知10万人中有1人患有这种癌症。那么P(cancer) = 1 / 100 000。测试的准确率为 ...
Get 精通数据科学算法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.