機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発
by Lewis Tunstall, Leandro von Werra, Thomas Wolf, 中山 光樹
11章Transformerの未来
本書では、さまざまな自然言語処理タスクにおけるTransformerの強力な能力を探ってきました。この最終章では、視点を変えて、Transformerに関する現在の課題と、その課題を克服しようとする研究動向について紹介します。最初に、モデルとコーパスのサイズの両方において、Transformerをスケールアップするトピックを探ります。次に、セルフアテンション機構を効率化するための技術に目を向けます。最後に、テキスト、画像、音声など複数の領域にまたがる入力をモデル化できる、マルチモーダルTransformerという新しい分野を紹介します。
11.1 Transformerのスケーリング
2019年、研究者のRichard Sutton(https://oreil.ly/119br)は「The Bitter Lesson(苦い教訓)」(https://oreil.ly/YtD3V)と題する挑発的なエッセイを書き、次のように主張しました。
70年にわたるAI研究から得られた最大の教訓は、計算を活用した一般的な手法が最終的には大差をつけて効果的だということです。短期的には、研究者はドメインに関する人間の知識を活用して改善しようとしますが、長期的に重要なのは計算を活用することです。この2つは互いに相反する必要はないのですが、実際にはそうなりがちです。そして、人間の知識によるアプローチは、計算を活用する一般的な手法に適さない形で手法を複雑化する傾向があります。
このエッセイでは、チェスや囲碁など、人間の知識をAIシステムにエンコードするというアプローチが、最終的に計算量の増加に負けた歴史的な例をいくつか紹介しています。Suttonはこれを、AIの研究分野にとっての「苦い教訓」と呼んでいます。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access