第10章 预测性分析与机器学习
最近,预测性分析与机器学习已经纳入许多行业的主流数据科学和数据分析的行列。相对于其他领域而言,我们对这两个领域取得突飞猛进发展的期待要更热切一些。甚至有人预言,机器学习的发展速度将日益加快,因此,几十年内,人工就会被智能机器所替代。当然,就目前人工通用智能(AGI)的发展现状来看,这只是一个遥远的乌托邦而已;但是机器学习已经取得了长足的进步,可用于自驾车、聊天机器人和AI助手,如亚马逊的Alexa、苹果的Siri以及Ok Google。然而,目前即使是进行非常简单的判断,如判断网络图片中是否含有猫或狗等,都需要大量的运算和数据作为支撑。预测性分析则需要借助各种各样的技术,包括机器学习,才能做出有用的判断。例如,某客户是否有能力偿还其贷款,或者某位女性客户是否有孕在身。
为了完成这些预测,需要从海量数据中提取特征。关于特征,我们之前也曾经提到过,它们又被称为预测变量。进行预测时,特征通常用于输入变量。实质上,特征可以从数据中提取,然后要做的是,找到一个函数,将特征映射到目标上。当然,这个目标可能是已知的,也可能是未知的。寻找合适的函数很难,为此,通常需要把多种不同的算法和模型组合在一起,也就是所谓的集成。集成的输出结果可以是一组模型投票决出的结果,也可以是所有结果的一个折中。但是,我们还可以使用另外一种更加高级的算法来获得最终结果。虽然我们不会在本章使用集成技术,但是大家还是有必要记住这种技术。
实际上,在前面的章节中我们已经接触过机器学习算法了,朴素贝叶斯分类算法便是其中之一。我们可以将机器学习分为下列几种类型。
- 监督学习:要求为训练数据提供标签,也就是说需要给算法提供已经分好类的样本。利用带标签的训练数据,我们可以创建一个函数,将输入变量映射为相应的输出变量。比如,如果想对垃圾邮件进行分类,那么我们必须提供垃圾邮件和正常电子邮件的相应样本。监督学习算法的例子包括线性回归、逻辑回归、状态向量机、随机森林、K最近邻算法等。 ...
Get Python数据分析(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.