
学習における問題と対策
2.7
ニューラルネットワークの学習では、様々な問題が発生することがあります。LLM でも同
様であり、学習では次のような問題を避けるための対策が必要です。
過学習(Overfitting)
勾配消失(Vanishing Gradient)
勾配爆発(Exploding Gradient)
本節ではこれらの問題について説明し、対策について簡単に紹介します。
2.7.1
過学習(Overfitting)
過学習[Srivastava et al. 2014]とは、モデルが訓練データに過剰に適合し、未知のデータに
対する汎化性能が低下する現象です。過学習が起きるとモデルは訓練データには高い精度を示
しますが、テストデータや実際の応用場面では性能が低下してしまいます。
例えば、Zhangらによる実験 [H. Zhang et al. 2024] では、LLM の評価によく使われるデー
タセットであるGSM8K に対して過学習が起きていることを示唆しています。過学習が起きて
いるモデルでは、GSM8K と同じ難易度で新たに作成したGSM1K というデータセットに対し
て、GSM1Kに対して最大で 13% の性能低下が報告されています。
一般に過学習を防ぐための対策としては、次のような手法が用いられます。
正則化(Regularization)[Ng 2004]:モデルの複雑さにペナルティを与えることで、過
剰な適合を防ぐ手法です。L1正則化や、L2 正則化がよく用いられます。
ドロップアウト