第2章 你的第一个分类器
安装好TensorFlow后,接下来我们将对其进行检验,为此我们将从头开始编写我们的第一个分类器,并对其进行训练和测试。
我们的第一个分类器是一个手写识别器。在手写识别方面,非常常见的一个训练数据集是MNIST手写数字数据集。不过,我们将使用一个名为notMNIST的类似数据集,它由英语字母表中的前10个字母(A~J)的图片组成。
2.1 关键部分
大多数机器学习分类器包含以下3个关键部分。
- 训练管道。
- 神经网络设置和训练。
- 应用管道。
训练管道用于获取数据、展示数据、净化数据、均匀化数据,并将数据转换成神经网络可接受的格式。如果训练管道占据你80%~85%的工作量,那么不要为此感到惊讶,因为这是大多数机器学习工作的实际情况。一般来说,训练数据越真实,训练管道需要花费的时间越多。在企业环境中,训练管道可能是一个持续增强的工作过程,数据集变得更大时更是如此。
第二部分为神经网络设置和训练,对于常规问题它可以快速完成,而对于较困难的问题则需要深入研究。你可能需要一遍又一遍地调整网络设置,直到最终达到所期望的分类器准确率。训练是整个过程中计算成本最高的部分,在评估每次增量修改的结果之前,它都需要花费一定的时间。
一旦完成初始设置,且训练网络达到足够的准确率,那么我们就可以反复使用它了。第10章将探索更多高级主题,例如持续学习,在持续学习中对模型的使用可以反馈到分类器的进一步训练中。
2.2 获取训练数据
机器学习离不开训练数据,且通常需要大量的训练数据。机器学习可利用标准训练数据集,这些数据集通常用于基准化节点模型和配置,并提供一种一致性标准来评估相对于前一步的性能变化。此外,很多数据集也用于每年的各种竞赛中。
本章使用由机器学习研究员Yaroslav Bulatov提供的训练数据。 ...
Get TensorFlow机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.