第1章　机器学习和统计科学

机器学习是近几年炙手可热的话题。每天都有新的应用和模型进入人们的视野。世界各地的研究人员每天所公布的实验结果都显示了机器学习领域所取得的巨大进步。

技术工作者参加各类课程、搜集各种资料，希望使用这些新技术改进他们的应用。但在很多情形下，要理解机器学习需要深厚的数学功底。这就为那些虽然具有良好的算法技能，但数学概念欠佳的程序员们设置了较高的门槛。

本书第1章概述了机器学习的主要研究领域，将对基本统计学、概率和微积分进行简要的介绍。同时提供了示例源代码，帮助读者利用这些公式和参数进行试验。

在第1章中，将会学到以下内容。

当今世界充斥着大量的数据。从基础层面来说，人们不断从文本、图像、声音以及其他信息中学习。这些数据是掌握新技能的第一步。

遍布世界的无数计算设备收集并存储大量的图像、视频和文本信息。因此，有充足的原始数据用于学习，并且这些格式的数据都能够由计算机处理。

这门学科的出发点是，所研究的技术和方法允许计算机从数据中学习，而不需要显式编程。

Tom Mitchell对机器学习给出了更正式的定义：

“如果一个计算机程序在执行任务T时的性能P随着经验E而提高，那么我们就称，对于任务T和性能度量P，这个计算机程序通过经验E学习。”

这个定义非常全面。它阐明了每个机器学习项目中所包含的元素：执行的任务、持续更新的经验，以及清晰恰当的性能度量。简单来说，就是一个程序可在一定标准的指引下，基于获取的经验来改进执行的任务。

1.1　机器学习的发展

作为一门学科，机器学习并不是孤立的——它属于一个更大的领域，人工智能（Artifiical Intelligence，AI）。但你可以猜到，机器学习并不是凭空而来的。在它之前，经过复杂度的逐级增加，机器学习已经经历了4个截然不同的阶段。 ...

Get 机器学习开发者指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.