第1章 机器学习——引言

“‘机器学习(CS229)’是斯坦福大学最受欢迎的课程”——这是劳拉•汉密尔顿(Laura Hamilton)在《福布斯》(Forbes)杂志上发表的一篇文章的开头,接下来的内容是:“为什么?因为机器学习正在逐步‘吞噬’这个世界。”

机器学习技术的确被应用到了各种不同领域,而且目前很多行业都在招募数据专家。借助机器学习,我们能够找到可获取那些在数据中并不明显的知识的进程,进而做出决策。机器学习技术的应用范围非常广泛,适用于医学、金融和广告等不同领域。

本章将介绍不同的机器学习方法和技术以及它们在现实问题中的应用,还将介绍用于机器学习的主要Python开源包:scikit-learn。本章将为读者学习后续章节奠定基础。后续章节将重点介绍如何使用神经网络模拟大脑功能的具体机器学习方法(尤其是深度学习)。相比20世纪80年代,如今的深度学习更多地利用了高级神经网络,这不仅得益于理论方面的最新发展,还得益于计算机速度的进步以及图形处理单元(GPU)的应用,而不是传统的计算处理单元(Computing Processing Unit,CPU)的应用。本章主要概述机器学习的定义和作用,旨在帮助读者更好地理解深度学习与传统机器学习技术之间的区别。

本章涵盖以下主题:什么是机器学习、不同的机器学习方法、机器学习系统所涉及的步骤、关于流行技术/算法的简介以及在现实生活中的应用和流行开源包。

机器学习是一个经常与“大数据”和“人工智能”(简称AI)等一并出现的术语,但它与其他二者有着很大的不同。要理解什么是机器学习以及它为什么有用,关键要理解:什么是大数据以及机器学习如何应用于大数据。大数据是一个用于描述大量数据集的术语,而数据集是通过大量聚集和保存的数据创建起来的,例如,通过摄像头、传感器或互联网社交网站产生的数据。据估计,仅仅谷歌公司每天就能处理超过20PB的信息,而且这个数字还会增加。IBM公司估计每天都会产生2500PB的数据,而且世界90%的数据都是最近两年创建的。 ...

Get Python深度学习从原理到应用 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.