10章自然言語処理の詳細:RNN

 「1章 ディープラーニングへの旅路」で、自然言語データセットに対してもディープラーニングで素晴らしい結果が得られることを示した。そこで示した例では、訓練済みの言語モデルをファインチューンして、映画レビューをクラス分類した。この例は転移学習の方法が自然言語処理(NLP)とコンピュータビジョンとで大きく異なることを示している。一般にNLPでは異なるタスクで事前学習を行うのだ。

 ここで言語モデルと呼んでいるものは、文中の次の単語を(それ以前の単語列から)当てるように訓練したモデルだ。このようなタスクを自己教師あり学習(self-supervised learning)と呼ぶ。このようなタスクでは、モデルにラベルを与える必要はなく、ただたくさんのテキストを与えるだけでいい。タスク自体にデータからラベルを自動的に抽出する過程が組み込まれている。このタスクは簡単ではない。文中の次の単語を適切に予測するには、その言語を理解していなければならないからだ。自己教師あり学習は他の領域でも用いられている。例えば、「Self-Supervised Learning and Computer Vision」(https://www.fast.ai/2020/01/13/self_supervised/)には、コンピュータビジョンでの自己教師あり学習の応用事例が掲載されている。自己教師あり学習で訓練したモデルを、そのタスクで使うことはあまりない。通常は訓練したモデルを転移学習で用いる。

ジャーゴン:自己教師あり学習外部にラベルを求めるのではなく、独立変数に埋め込まれたラベルを用いてモデルを訓練すること。例えば、文章の次の単語を予測する方法がある。

 「1章 ディープラーニングへの旅路」 ...

Get PyTorchとfastaiではじめるディープラーニング ―エンジニアのためのAIアプリケーション開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.