6章埋め込みと表現学習

6.1 低次元表現の学習

5章では、シンプルな入力に基づく畳み込みのアーキテクチャーを作成しました。入力のベクトルのサイズが大きいと、その分だけモデルも大きくなります。多数のパラメーターを持つ大きなモデルは表現力が豊かですが、大量のデータを必要とします。十分な訓練データがないと、過学習の可能性が高まってしまいます。この問題は次元の呪いと呼ばれます。畳み込みのアーキテクチャーを使えば、不必要に表現力を損なうことなしにモデルのパラメーターを減らせます。

しかし依然として、畳み込みネットワークでは大量のラベル付きデータが訓練に必要です。そして多くの課題にとって、データにラベルが付けられていることは少なく、ラベルの生成には手間がかかります。この章での目標は、ラベル付きのデータは少ないが無加工のラベルなしデータなら豊富にあるという状況で、効率的に学習できるモデルを作成することです。この課題に対して、我々は教師なしで埋め込み表現または低次元表現を学習するというアプローチをとります。教師なしのモデルを使うと、特徴選択という面倒事をすべて自動化できます。そのため、データが少なくて済む小さなモデルと生成された埋め込み表現を使って学習の問題を解決できます。このプロセスを図示したのが図6-1です。

ラベルの少ないデータでは、埋め込み表現を使って特徴選択を自動化する

図6-1 ラベルの少ないデータでは、埋め込み表現を使って特徴選択を自動化する

良い埋め込み表現を学習するアルゴリズムを作るプロセスの中で、低次元表現の他の適用例を見てみましょう。例えば可視化や意味的ハッシュ化などが考えられます。まずは、すべての重要な情報があらかじめ入力ベクトル自体の中に含まれている状況について検討します。この場合、埋め込み表現を学習するというのは効率的な圧縮アルゴリズムを作成することと同義です。 ...

Get 実践 Deep Learning ―PythonとTensorFlowで学ぶ次世代の機械学習アルゴリズム now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.