第10章 预测性分析与机器学习

预测性分析机器学习是两个新兴的热门研究领域。这里所谓的新,一方面是相对于其他领域而言的,另一方面也反映出我们对这两个领域取得突飞猛进的热切期待。甚至有人预言,机器学习的发展速度将日益加快,因此,几十年内,人工就会被智能机器所替代,详情见 http://en.wikipedia.org/wiki/Technological_singularity页面。当然,就目前的发展现状来看,这只是一个遥远的乌托邦而已:即使是进行非常简单的判断,如判断网络图片中是否含有猫或狗等,都需要大量的运算和数据作为支撑。预测性分析则需要借助各种各样的技术,包括机器学习,才能做出有用的判断。例如,某客户是否有能力偿还其贷款,或者某位女性客户是否有孕在身,详情请参考http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/页面的介绍。

为了完成这些预测,需要从海量数据中提取特征。关于特征,我们之前也曾经提到过,它们又被称为预测变量。进行预测时,特征通常用于输入变量。实质上,特征可以从数据中提取,然后要做的是,找到一个函数,将特征映射到目标上。当然,这个目标可能是已知的,也可能是未知的。寻找合适的函数一般很难,为此,通常需要把多种不同的算法和模型组合在一起,也就是所谓的集成。集成的输出结果可以是一组模型投票决出的结果,也可以是所有结果的一个折中。但是,我们还可以使用另外一种更加高级的算法来获得最终结果。虽然我们不会在本章使用集成技术,但是大家还是有必要记住这种技术的。

实际上,在前面的章节中我们已经接触过机器学习算法了,朴素贝叶斯分类算法便是其中之一。可以将机器学习分为下列几种类型。 ...

Get Python数据分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.