
260 9 章 線形回帰とロジスティック回帰
図 9 -10 学
習率/ステップサイズの効果。ステップサイズが小さすぎると、収束するまでの反復回数が多く
なる。しかし、ステップサイズが大きすぎると、最小値を通り過ぎてしまう
9.4.3 正しい学習率はどれくらいか
損失関数の導関数は、回帰問題を解くパラメータを特定する最小値に到達するにはどの方向に移動すれば
よいかがわかる。しかし、どれくらい歩かなければならないかはわからない。方向の有用性は、距離を減ら
すことである。ニューヨークからマイアミに向かう近道として、「まず南に向かえ」という指示は正しいが、
ある程度進んだらもっと詳しい指示が必要になる。
勾配降下探索には手続きがある。最良の向きを見つけて一歩進むという手続きをターゲットに着くまで繰
り返す。一歩の大きさを学習率と呼ぶ。学習率の大きさにより、最小値がどの程度早く見つかるかがわか
る。小さな一歩を進むたびに繰り返し地図を見れば(つまり偏微分すれば)目的地に到着できるが、非常に
時間がかかる。
しかし、常に一歩を大きくすればよいわけではない。学習率が高すぎると、図 9 -10(右)のように最小
値を通り過ぎてしまう。一歩進むたびに通り過ぎてしまうのでは、最小値にはなかなか届かない。以前より
も J(w) の値が大きくなるようであれば、後退することになる。
原則として、探索の最初の段階では学習率は大きくしたいが、ゴールの近くでは学習率を小さくしたい。
最適化の過程で損失関数の値を監視する必要がある。進み方が遅すぎるなら、 ...