2章基盤モデルを理解する
基盤モデルを使用してアプリケーションを構築するには、当然のことながら、まず基盤モデルが必要です。モデルを使用するためにモデル開発の方法を知っている必要はありませんが、大まかな仕組みを理解していれば、どのモデルを使用し、ニーズに合わせてどのように適応させるかを判断するのに役立ちます。
基盤モデルの学習は、極めて複雑で膨大なコストを要するプロセスです。そのノウハウを知る専門家たちも、機密保持契約により、核心部分を明かすことはまずありません。したがって本章では、ChatGPTに匹敵するようなモデルの構築を解説するわけではありません。代わりに、モデルを扱うアプリケーションに重大な影響を与える、設計上の重要な判断に焦点を当てます。
基盤モデルの学習プロセスは不透明さを増しており、その開発における設計の重要なポイントをすべて把握することは困難です。しかし一般的に、基盤モデルの違いは、学習データ、モデルのアーキテクチャとサイズ、そして人間の好みに合わせるための事後学習の方法から生まれます。
モデルはデータから学習するため、その学習データはモデルの能力と限界について多くのことを明らかにします。この章ではまず、モデル開発者がどのように学習データを集め、学習データの分布に注目するのかについて説明します。それと関連して、8章では、データ品質評価やデータ合成など、データセットエンジニアリング技術を詳しく探求します。
昨今はTransformerアーキテクチャが主流で、モデルアーキテクチャはあまり選択の余地がないように思えるかもしれません。皆さんは、Transformerアーキテクチャがなぜこれほどまでに特別で、支配的であり続けるのか、不思議に思っているかもしれません。別のアーキテクチャが取って代わるのはいつになるのか、そしてその新しいアーキテクチャはどのようなものになるのか。この章では、これらのすべての疑問にお答えします。新しいモデルがリリースされるたびに、人々が真っ先に知りたがることの1つはそのサイズです。この章ではまた、モデル開発者がモデルの適切なサイズをどのように決定するのかについても探求します。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access