
2
勾配降下法
2.5
損失関数はモデルの性能を評価する指標であり、小さいほどモデルが正確に予測できること
を示します。損失関数の値が小さくなるようにモデルのパラメータを調整することが、学習の
目的です。損失関数も含めたモデル全体はパラメータを入力とし、損失関数の値を出力する巨
大な関数とみなすことができます。この関数を数式で表すと、
L
=
f
(
i
)となります。ここで、
L
は損失関数の値、
i
はモデルに含まれる全てのパラメータの集合を表します。例えば、
Transformerの場合、
i
には埋め込み層、注意機構、FFNN の重みなどが含まれます。学習で
は、この関数
f
を最小化するように、パラメータを調整します。
では、この関数
f
の最小値となるパラメータをどのように求めるのでしょうか。関数
f
は複
雑な非線形関数であり、解析的に最小値を求めることは困難です。そこで用いるのが、勾配降
下法(Gradient Descent)です。
2.5.1
勾配降下法の考え方
勾配降下法は、関数の勾配を計算し、その勾配を使ってパラメータを更新することで関数の
最小値を求める最適化アルゴリズムです。勾配は、関数の各点における傾きが集まったもので
す。傾きが正の場合、関数は増加していることを示し、傾きが負の場合、関数は減少している
ことを示します。ですので、傾きが負の方向にパラメータを更新することで、関数の最小値に
近づくことができます。これは、私たち人間が山道に立っているときに、坂道を下る方向を選
びながら歩き続けることで谷底に辿り着くのと似ています。 ...