Skip to Content
机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron
October 2020
Intermediate to advanced
693 pages
16h 26m
Chinese
China Machine Press
Content preview from 机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
32
1
1.5 机器学习的主要挑战
简单来说,由于你的主要任务是选择一种学习算法,并对某些数据进行训练,所以最可
能出现的两个问题不外乎是“坏算法”和“坏数据”,让我们先从坏数据开始。
1.5.1 训练数据的数量不足
要教一个牙牙学语的小朋友什么是苹果,你只需要指着苹果说“苹果”(可能需要重复这
个过程几次)就行了,然后孩子就能够识别各种颜色和形状的苹果了,简直是天才!
机器学习还没达到这一步,大部分机器学习算法需要大量的数据才能正常工作。即使是
最简单的问题,很可能也需要成千上万个示例,而对于诸如图像或语音识别等复杂问
题,则可能需要数百万个示例(除非你可以重用现有模型的某些部分)。
12
数据的不合理有效性
2001 年发表的一篇著名论文中,微软研究员 Michele Banko Eric Brill 表明,给
定足够的数据,截然不同的机器学习算法(包括相当简单的算法)在自然语言歧义
消除这个复杂问题上
8
,表现几乎完全一致(如图 1-20 )。
文本精确度
百万个单词
1-20:数据与算法的重要性
9
8 :例如,根据上下文知道是写“to”“ two”还是“too”。
9 :图经 Michele Banko Eric Brill 许可转载,“ Scaling to Very Very Large Corpora for Natural Language
Disambiguation ,
Proceedings of the 39th Annual Meeting ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

算法技术手册(原书第2 版)

算法技术手册(原书第2 版)

George T.Heineman, Gary Pollice, Stanley Selkow
Go语言编程

Go语言编程

威廉·肯尼迪
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977