4章勾配降下法を超えて
4.1 勾配降下法での課題
ニューラルネットワークの背後にある基本的な考え方は、数十年前からずっとあるものです。しかし、ニューラルネットワークに基づく学習のモデルが主流になったのはごく近年のことです。我々がニューラルネットワークに熱狂しているのは、その表現力の豊かさのためです。多数の層からなるネットワークを作成することによって、このような豊かさが得られました。ここまでの章でも述べてきたように、深層ニューラルネットワークを使うと従来は手に負えなかった問題に取り組めます。しかし、深層ニューラルネットワークの訓練には多くの困難が伴います。解決するには多くの技術革新が必要です。ImageNetやCIFARを始めとする巨大なラベル付きデータセット、GPUアクセラレーションを備えた高性能なハードウェア、新しいアルゴリズムなどが求められます。
ここ数年の間、研究者たちは層単位で大量に事前訓練を行うことによって、ディープラーニングのモデルに含まれる複雑な誤差曲面と格闘してきました†1。ミニバッチ勾配降下法を適用する前に、1層ごとにモデルのパラメーターのより正確な初期値を求め、最適なパラメーターへの収束をめざすという方針です。ただし、この方針では多くの時間が必要になります。近年では最適化の手法に大きな進歩が見られ、モデルを一括して訓練できるようになりました。
[†1] Bengio, Yoshua, et al. "Greedy Layer-Wise Training of Deep Networks." Advances in Neural Information Processing Systems 19 (2007): 153.
この章では、これらの進歩の一部を紹介して議論します。まずは極小値に注目し、これが深層モデルの訓練への障害になるのかを考察します。続いて、深層モデルがもたらす非凸な誤差曲面や、単純なミニバッチ勾配降下法の欠陥、最新の最適化手法による非凸性の克服について取り上げます。 ...
Get 実践 Deep Learning ―PythonとTensorFlowで学ぶ次世代の機械学習アルゴリズム now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.