第10章 机器学习精要:你的烤箱在学习吗

机器学习已经成为最近10年出现频率最高的词语之一。每当我们听到下一个颠覆性的创业公司或爆炸性新闻,它们都多多少少和机器学习技术变革以及如何改变世界有关。

本章是数据科学的实践环节,我们将专注机器学习。本章的主要内容有:

  • 了解机器学习的分类,并学习相关案例;
  • 介绍回归、聚类等机器学习模型;
  • 定义机器学习,以及如何在数据科学中使用它;
  • 机器学习和统计模型的区别,以及为什么机器学习的范围比统计模型更广。

我们的目标是运用统计学、概率论和算法思维,将机器学习能力应用到实际生产环境中,比如市场营销。我们介绍的案例有预测餐馆的评价、疾病、垃圾邮件等。本章将从全局视角介绍机器学习和一个统计模型。

我们还将介绍各种指标,因为指标反映了模型的有效性。我们需要借助指标才能得出结论,进而使用机器学习进行预测。

在下一章中,我们将介绍更多复杂的模型。

在正式开始之前,有必要对机器学习进行具体地定义。在第1章“如何听起来像数据科学家”中,我们称机器学习是赋予机器从数据中学习的能力,而不需要程序员给出明确的规则的模型。这个定义仍然成立。机器学习关注的是从数据中学习模式(pattern)——即便数据本身存在错误(噪声)。

机器学习模型可以直接从数据中发现知识,而无需人类的帮助。这是传统算法和机器学习模型最根本的区别。传统算法被告知如何从复杂系统中发现答案,算法将从中搜索最佳结果,它的速度远远高于人类。然而,传统算法最大的缺点在于人类必须首先知道最佳解决方案是什么。而对于机器学习算法,人类不需要事先告诉模型最佳解决方案,相反,我们提供该问题的几个例子,由模型本身找出答案

机器学习是数据科学家工作箱中一个重要工具,它和统计检验方法(卡方检验或t检验)、使用概率论/统计学预测总体参数一样重要。机器学习经常被误认为是数据科学家唯一需要掌握的能力,这是不真实的。真正的数据科学家既要懂得何时使用机器学习模型,也要懂得何时不使用机器学习模型。 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.