第5章 モデルの機能を拡張する モデル能力を拡張する
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
LLMは膨大なデータからパターンを認識することに優れている。次のトークンを統計的に予測することで、首尾一貫した、文脈に関連したレスポンスを生成することができる。しかし、これは必ずしもLLMが基礎となる概念を純粋に理解できることを意味しない。もし基盤モデルのトレーニングでカバーしきれないタスクがあれば、モデルはそのタスクを実行できないかもしれない。この章では、基礎モデルにトレーニングされていないタスクを教えるために使用できる4つのパターンについて説明する。
LLM推論の限界
基盤モデルは、 の記号や単語を効果的に操作することができるが、これはトレーニングデータで遭遇した操作から一般化しているためであり、人間のように意味や論理的関係を把握しているためではない。多くのタスクを実行するために基盤モデルを使うことができるが、それはそれらのタスクが、基盤モデルがトレーニングされたタスクに類似しているからだ。
基盤モデルがうまくできないタスクを説明するのは難しい。それは、本書の読者のような一般性には理解できない、難解なタスクや業界特有のタスクになるからだ。LLMのトレーニングデータではうまく捉えられないタスクには、投資信託の投資委員会にメモを書くことや、社内調査を裁くことなどがある。なぜなら、そのようなメモは社内記録であり、そのような調査は非常に企業特有のもので、一般には知られていないからだ。定義によれば、広く利用可能な情報源に記述されているタスクはすべてLLMの対象となる。このことから、LLMの推論能力には限界があるという考えを裏付けるために、数学と推論の問題を使うことにする。ただし、本章のパターンは数学や推論の問題に対する解決策ではなく、投資委員会のメモを書いたり、社内調査を裁いたりするような問題に対する解決策であることに注意されたい。
既知の能力
多くの一般的な数学と推論の問題は、LLMのトレーニングデータセットで十分カバーされている。例えば、あなたの好きな基盤モデルにこう頼んでみよう:
100から110までの素数をリストアップする。
101、103、107、109という正しい結果が得られるはずだ。試したところ、Gemini Flashは 、このように答えた(コードはGitHubにある):
100から110までの素数は以下の通りである:
101
103
107
109
ジェミニの正確なトレーニングデータがこの正確な質問に答えたとは思えない。その代わりに、ジェミニは私たちが指定した範囲に遭遇した素数チェックを一般化することができる。
同様に、GPT-4o-miniにもこの質問をすることができる:
84平方メートルのアパートは何平方フィートか?
この結果、推論によく似たものが得られる:
平方メートルを平方フィートに換算するには、1平方メートルは約10.7639平方フィートという換算係数を使うことができる。
つまり、84平方メートルを平方フィートに換算するには、次のようになる:
\[
84平方メートルを平方フィートに換算する。\を平方フィートに換算すると、約903.20平方フィートとなる。\約903.20平方フィート。
\]
したがって、84平方メートルのアパートは約903.20平方フィートである。
ここでも、ChatGPTがトレーニングで特定の単語問題(アパートの広さ)や数字問題(84)に遭遇した可能性は低いが、遭遇した類似問題から一般化して正しいアプローチに従うことができる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access