第1章 机器学习基础

在本章中,我们将回顾机器学习中的基础概念,比较监督学习和无监督学习,讨论训练数据、测试数据和验证数据的用法,并了解机器学习应用。最后,我们将介绍scikit-learn库,并安装后续章节中需要的工具。

长久以来,我们的想象力一直被那些能够学习和模仿人类智慧的机器所吸引。尽管具有一般人工智能的机器(比如阿瑟· 克拉克笔下的HAL和艾萨克· 阿西莫夫笔下的Sonny)仍然没有实现,但是能够从经验中获取新知识和新技能的软件正在变得越来越普遍。我们使用这些机器学习程序去寻找自己可能喜欢的新音乐,找到自己真正想在网上购买的鞋子。机器学习程序允许我们对智能手机下达命令,并允许用恒温控制器自动设置温度。机器学习程序可以比人类更好地破译书写凌乱的邮寄地址,并更加警觉地防止信用卡欺诈。从研发新药到估计一个头条新闻的页面访问量,机器学习软件正在成为许多行业的核心部分。机器学习甚至已经侵占了许多长久以来一直被认为只有人类能涉及的领域,例如撰写一篇关于杜克大学篮球队输给了北卡大学篮球队的体育专栏报道。

机器学习是对软件工件的设计和学习,它使用过去的经验去指导未来的决策。机器学习是对从数据中学习的软件的研究。机器学习的基础目标是归纳,或者从一种未知规则的应用例子中归纳出未知规则。机器学习的典型例子是垃圾邮件过滤。通过观察已经被标记为垃圾邮件或非垃圾邮件的电子邮件,垃圾邮件过滤器可以分类新消息。研究人工智能的先锋科学家亚瑟·萨缪尔曾说过机器学习是“给予计算机学习的能力而无须显式地编程的研究”。在20世纪50年代到20世纪60年代之间,萨缪尔开发了多个下棋程序。虽然下棋的规则很简单,但是要战胜技艺高超的对手需要复杂的策略。萨缪尔从来没有显式地编程过这些策略,而是通过几千次比赛的经验,程序学习了复杂的行为以此打败了许多人类对手。 ...

Get scikit-learn机器学习(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.