付録AGPT-3

中山 光樹

本付録は日本語版オリジナルの記事です。本稿では、2020年7月にOpenAI(https://openai.com)がベータテストを開始して話題のGPT-3(Generative Pre-trained Transformer 3)について解説します。

A.1 はじめに

2020年5月28日、OpenAIの研究者たちによる1本の論文「Language Models are Few-Shot Learners」(https://arxiv.org/abs/2005.14165)がarXiv上で公開されました。その論文で提案されたのが、自然言語処理のさまざまなタスクで優れた結果を残した言語モデルGPT-3です。GPT-3は、機械翻訳や質問応答、対話などのさまざまなタスクに使うことのできる汎用的なモデルです。なによりも、さまざまなタスクを、教師データを用いたモデルのチューニングをしなくても解けることで驚きを与えました。その驚きは、後ほどGPT-3の応用を紹介する節で共有することにしましょう。

自然言語処理の分野では、2018年に提案された言語モデルBERTの成功がその後の研究に大きく影響を与えました。BERT以前は、翻訳や質問応答など、タスク固有の小さなデータセットを利用してモデルを学習させる手法が主流でした。一方、BERT以降は、巨大なテキストコーパスを用いて言語モデルを事前学習し、タスク固有のデータセットを利用してモデルを微調整(Fine-Tuning)する方法が盛んに使われるようになりました(図A-1)。BERTの登場以降、BERTの改良版が次々と登場し、文章読解のデータセットなどでは人間に匹敵、あるいは上回る性能を出すようになりました。

図A-1 BERTの事前学習とFine-Tuning。ラベルなしデータを使ってモデルを事前学習(左)させた後、タスク固有のデータセットを使ってモデルをFine-Tuning(右)する。画像は「BERT: ...

Get 生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.