
2
2.7.2
勾配消失(Vanishing Gradient)
勾配消失[Hochreiter 1998] とは、誤差逆伝播法において勾配が層を経るごとに指数関数的
に小さくなる現象です。勾配消失が起きると深い層のパラメータが更新されにくくなり、学習
が進まなくなります。LLMでは、多数の層を持つため、勾配消失への対策が重要となります。
勾配消失を防ぐために、次のような手法が用いられます。
ReLU活性化関数 [Nair et al. 2010]:勾配消失を起こしにくい活性化関数です。
残差接続(Residual Connection) [He et al. 2015a]:層の入力を出力に直接加算する接
続です。勾配が直接伝播されるため、勾配消失を防ぐことができます。
Layer Normalization [Ba et al. 2016]:各層の入力を正規化する手法です。勾配消失を
防ぐことができます。
これらの手法は1.3 で紹介したTransformer にも適用されており、勾配消失を防ぐために効
果的とされています。
2.7.3
勾配爆発(Exploding Gradient)
勾配爆発[Pascanu et al. 2013]とは、誤差逆伝播法において、勾配が層を経るごとに指数関
数的に大きくなる現象です。勾配爆発が起きるとパラメータが不安定になり、学習が進まなく
なります。LLMでは、多数の層を持つため、勾配爆発への対策が重要です。
勾配爆発を防ぐための対策としては、次のような手法が用いられます。 ...