
バッチ勾配降下法の場合:
m N
(データセット全体)
SGDの場合:
m
ミニバッチSGD の場合:
1< m < N
バッチ勾配降下法は、各更新ステップでデータセット全体を用いて勾配を計算します。デー
タセット全体を用いることで勾配の推定が正確になりますが、大規模なデータセットでは計算
コストが高くなります。
SGDは、各更新ステップで一つのデータサンプルを用いて勾配を計算します。更新が高速
になりますが、勾配の推定が不安定になる可能性があります。
ミニバッチSGD は、バッチ勾配降下法とSGDの中間的な手法で、各更新ステップで一部の
データサンプル(ミニバッチ)を用いて勾配を計算します。これにより勾配の推定が比較的安
定しつつ、更新も高速になります。実際の学習では、ミニバッチSGD がよく使われています。
これは、学習環境で用いられるGPUによる並列処理とミニバッチ SGDとの相性が良いためで
す。なお、ミニバッチのサイズ
m
は、GPUのコア数やメモリ容量に基づいて適切な値が設定
されます。
2.5.4
勾配降下法の派生系
勾配降下法の派生系として、Adam(Adaptive Moment Estimation)[Kingma et al.
2017]、RMSProp [Hinton et al. 2012]、AdaGrad[Duchi et al. 2011] などの手法があります。
これらの手法は、学習率を適応的に調整することで最適化の効率を改善します。特にAdam は
モーメンタム [Polyak 1964] ...