3章大規模言語モデル

2章では、既存の基盤モデルを使ってプロンプトエンジニアリングを実行する方法を学びました。コンテキスト内学習の活用が、その一例です。この章では、学習の目的やデータセットを含め、基盤モデルの学習がどのように行われるかを探ります。独自の基盤モデルの学習をゼロから行うことは、あまりありません。とは言え、基盤モデルの学習という計算集約的なプロセスを実際に行うと、どれだけの時間、労力、複雑性が必要となるのかが理解でき、そのことに価値はあります。

数十億パラメーターに及ぶ大規模言語モデル(large language model/LLM)について、ゼロから学習を行う(事前学習と呼ばれる)には、延べ数百万個分のGPU計算時間、数兆個のデータトークン、そしてたくさんの根気を要します。この章では、有名なChinchilla論文で説明されている、モデルの事前学習用の経験的スケーリング則について学びます†1

[†1] Jordan Hoffmann et al., “Training Compute-Optimal Large Language Models”, arXiv, 2022.(https://oreil.ly/jSYx1

例えば、BloombergGPTモデルの論文†2によると、モデルの学習を行った研究者たちはChinchillaのスケーリング則を出発点としましたが、たくさんの試行錯誤が必要でした。学習にはAmazon SageMakerが使われ、GPUインスタンスの大規模分散クラスターで、130万GPU時間ものGPU計算リソース予算が費やされました。

[†2] Shijie Wu et al., “BloombergGPT: A Large Language Model ...

Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.