第3章 LLMベースのアプリケーション LLMベースのアプリケーション
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
2025年初頭の、テキスト、画像、音声や動画などのメディアを理解し生成できる大規模なマルチモーダルモデルを提供している企業はわずかである。簡潔さのため、これらのモデルを AIモデルと呼ぶことにする。最もよく知られている例は、OpenAI( )が作成したGPTモデルだが、他にもGoogleが作成したGeminiモデル、Anthropicが作成したClaude SonnetモデルやHaikuモデル、Metaが作成したLlamaモデルなどが人気だ。
多くの場合、これらの企業は他の企業と提携し、これらのモデルをクラウドサービスとして提供している。例えば、OpenAI はマイクロソフトとパートナーシップを結んでいる。マイクロソフトは、API経由でアクセスできるクラウドサービスでOpenAIのモデルをホストするインフラを提供している。Metaのような他のプロバイダーは、モデルスナップショット(事前に学習されたモデルの重みを含む大きなバイナリファイル)を提供しており、ユーザはこれを自身のインフラにインストールすることができる。このインフラは、企業が所有する物理マシンを意味する「ベアメタル」であったり、他のプロバイダーから購入したクラウドインフラであったりする。
モデル構築企業は、ユーザ向けのアプリケーションも提供している。多くの場合、モデルの名前とユーザ向けアプリケーションの名前は同じか非常に類似しているため、両者を混同しやすい。例えば、Google Gemini アプリケーションはGoogle Geminiモデルを使用しており、ClaudeアプリケーションはAnthropic Claude SonnetとHaikuモデルを使用している。OpenAIの名前は少し違う。ユーザ向けのアプリケーションであるChatGPTは、ユーザがGPT-4oおよびGPT-4o-miniモデルと対話することを可能にする。
これらのアプリケーションは洗練度が異なる。最もシンプルなアプリケーションは、ユーザがモデルに直接プロンプトを送信し、そのレスポンスを返すことができるチャットのようなWebインタフェースである。最近では、大手企業が提供するアプリケーションのほとんどは、それよりも洗練度が高くなっている。単純にプロンプトを直接渡すのではなく、ユーザーの入力に何重にも独自の指示を加え、その会話の中で(時には以前のセッションで)ユーザーが以前に何を質問したかを追跡し、より良いレスポンスを得る可能性を高めるためにユーザーが送信したプロンプトを修正し、その回答が安全で丁寧であることを保証する。
これらの追加のプロンプトとセーフガードを考えると、ユーザはAPIを通してモデルとやり取りするときと、デフォルトのウェブアプリケーションを通してやり取りするときでは、異なる回答を得ることになる。例えば、ユーザがchatgpt.comを通じてウェブ上でChatGPTと対話する場合、同じプロンプトをAPIを使ってモデルに直接送信する場合とは異なる回答を得る可能性が高い。ChatGPTからの回答は、過去のチャットのデータを使用することがあり、ユーザが提供したプロンプトにいくつかの追加のセーフガードと指示を追加する。例えば、ChatGPTのWebサイトを使って質問をすると、通常は "Would you like ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access