ジム・ダウリングによる序文
大規模言語モデル(LLM)の開発における第一人者であるイリヤ・サツケバーは、LLMが次のトークンを正確に予測できることから、そのトークンが生成された背景にある現実を理解していると主張した。言い換えれば、LLMは言語に基づいた世界観を内部に持っているのだ。LLMの内部モデルは、まずLLMがトレーニングした言語に変換されさえすれば、世界中のあらゆる事象について推論することができる。 LLMは世界に関する百科事典的な知識を持ち、トレーニングで使用された膨大な数の文書から得た知識を活用して、クエリに答えることができる。
しかし、LLMにトレーニング終了日以降に起きたことについて洞察を求めた場合、LLMが質問に答えられるよう、プロンプトにすべての関連情報(コンテキストと呼ばれる)を含める必要がある。 LLMsは、いわゆる「コンテキスト内学習」を通じて、提供されたコンテキストから学習し、一般化することさえできる。しかし、LLMと直接対話する場合(チャットボットを介さない場合)、それは映画『メメント』のレナード・シェルビーと話すようなものだ。彼は悲劇的に、新しい長期記憶を形成することができなかった。チャットボットは、すべてのプロンプトにおいて会話の全容をコンテキストとして提供するため、LLMに記憶があるかのような錯覚を与える。
ある意味、LLMsはROMしか持たず、新しい記憶を作るためのRAMを持たないコンピュータのようなものだ。レナード・シェルビーが自分の体をタトゥー(メモリー)として記憶を保存するという独創的な方法をとったように、LLMsも外部システムを記憶として利用し、必要に応じて後でそれを検索することができる。
また、LLMsは現実世界で行動することはできない。それらは、スティーブ・マーティン主演の映画『2つの脳を持つ男』に登場する「瓶の中の脳」のようなものだ。知識があり、推論もできるが、現実世界とは切り離されている。LLMs自体は現実世界で行動を起こせないが、クライアントが代わりに関数を実行できるようにする言語(JSON)で応答することはできる。 そして、関数はコンピュータシステムの構成要素であり、仮想世界でも物理世界でもアクションを引き起こすことができる。
近年、エージェントが、LLMが現実世界で行動することを可能にする「身体」、あるいは「枠組み」として登場した。エージェントは(エージェントループにおいて)関数を呼び出すことで、LLMに代わってタスクを実行できる。 LLMがタスクを完了したと判断した時点で、このループは終了する。しかし、エージェントにとって関数を呼び出すこと自体は比較的容易だ。難しいのは、LLMがどの関数をどのパラメータで呼び出すべきかを判断できるよう、正しいコンテキストをLLMに提供することである。 LLMにクエリを送信する際、利用可能なコンテキストをすべてプロンプトに詰め込むことはできない。LLMのコンテキストウィンドウはトークン数(単語数ではない)で測定される固定サイズであり、単一のプロンプトで提供できるコンテキストの量に制限がある。エージェントを構築する際の大きな課題は、コンテキストがない場合よりもLLMがより良い回答を提供できるよう、適切なコンテキスト情報を発見し、プロンプトに追加することだ。
この課題に対する解決策として、RAG(検索拡張生成)が知られるようになった。
現状を要約すると、現在のAI革命は「記憶喪失の瓶の中の脳」の上に築かれており、RAGを用いてLLMsに適切なコンテキストを提供し、有用なシステムを構築するためには、まだ多くの技術的課題が残されている。RAG解決策をどのように実装するかが、エージェント型システムの成功と、AIから価値を生み出すための鍵となる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access