
第 4章 神经网络的学习
82
4.1.1
数据驱动
数据是机器学习的命根子。从数据中寻找答案、从数据中发现模式、根
据数据讲故事……这些机器学习所做的事情,如果没有数据的话,就无从谈
起。因此,数据是机器学习的核心。这种数据驱动的方法,也可以说脱离了
过往以人为中心的方法。
通常要解决某个问题,特别是需要发现某种模式时,人们一般会综合考
虑各种因素后再给出回答。“这个问题好像有这样的规律性?”“不对,可能
原因在别的地方。”——类似这样,人们以自己的经验和直觉为线索,通过反
复试验推进工作。而机器学习的方法则极力避免人为介入,尝试从收集到的
数据中发现答案(模式)。神经网络或深度学习则比以往的机器学习方法更能
避免人为介入。
现在我们来思考一个具体的问题,比如如何实现数字“5”的识别。数字
5 是图4
-
1 所示的手写图像,我们的目标是实现能区别是否是5 的程序。这个
问题看起来很简单,大家能想到什么样的算法呢?
图4-1 手写数字5 的例子:写法因人而异,五花八门
如果让我们自己来设计一个能将5 正确分类的程序,就会意外地发现这
是一个很难的问题。人可以简单地识别出5,但却很难明确说出是基于何种
规律而识别出了 5。此外,从图 4
-
1 中也可以看到,每个人都有不同的写字习惯,
要发现其中的规律是一件非常难的工作。
因此,与其绞尽脑汁,从零开始想出一个可以识别5的算法,不如考虑
通过有效利用数据来解决这个问题。一种方案是,先从图像中提取特征量,