
第 6章 与学习相关的技巧
164
我们将指出
SGD
的缺点,并介绍
SGD
以外的其他最优化方法。
6.1.1
探险家的故事
进入正题前,我们先打一个比方,来说明关于最优化我们所处的状况。
有一个性情古怪的探险家。他在广袤的干旱地带旅行,坚持寻找幽
深的山谷。他的目标是要到达最深的谷底(他称之为“至深之地”)。这
也是他旅行的目的。并且,他给自己制定了两个严格的“规定”:一个
是不看地图;另一个是把眼睛蒙上。因此,他并不知道最深的谷底在这
个广袤的大地的何处,而且什么也看不见。在这么严苛的条件下,这位
探险家如何前往“至深之地”呢?他要如何迈步,才能迅速找到“至深
之地”呢?
寻找最优参数时,我们所处的状况和这位探险家一样,是一个漆黑的世
界。我们必须在没有地图、不能睁眼的情况下,在广袤、复杂的地形中寻找
“至深之地”。大家可以想象这是一个多么难的问题。
在这么困难的状况下,地面的坡度显得尤为重要。探险家虽然看不到周
围的情况,但是能够知道当前所在位置的坡度(通过脚底感受地面的倾斜状况)。
于是,朝着当前所在位置的坡度最大的方向前进,就是
SGD
的策略。勇敢
的探险家心里可能想着只要重复这一策略,总有一天可以到达“至深之地”。
6.1.2
SGD
让大家感受了最优化问题的难度之后,我们再来复习一下
SGD
。用数
学式可以将
SGD
写成如下的式(6.1)。
(6.1)
这里把需要更新的权重参数记为
W
,把损失函数关于
W
的梯度记为
。
η
表示学习率,实际上会取0.01 或 0.001 这些事先决定好的值。式子中的←