3章LLMベースアプリケーション
2025年初頭の時点では、テキストや画像に加えて音声や動画などのメディアを理解し生成できる大規模マルチモーダルモデルを提供している企業はごくわずかです。以降では簡潔にするため、これらをAIモデルと呼びます。最もよく知られているのはOpenAIが開発したGPTシリーズですが、GoogleのGeminiシリーズ、AnthropicのClaude SonnetとHaiku、MetaのLlamaといったモデルも広く利用されています。
多くの場合、これらの企業は他社と提携し、モデルをクラウドサービスとして提供しています。たとえばOpenAIはMicrosoftと提携しており、MicrosoftはAPI経由で利用可能なクラウドサービスを提供し、その基盤にOpenAIのモデルをホストできるようにしています。Metaのような企業は、事前学習済みモデルの重みを含む巨大なバイナリファイルであるモデルスナップショットを提供しており、利用者は自社のインフラにインストールできます。このインフラは、企業が所有する物理マシン、いわゆるベアメタルの場合もあれば、他社から購入したクラウドインフラの場合もあります。
モデルを構築する企業は、ユーザー向けアプリケーションも提供しています。多くの場合、モデル名とユーザーインターフェースのアプリケーション名が同じか非常によく似ているため、両者を混同しやすいです。たとえばGoogle GeminiアプリケーションはGoogle Geminiモデルを利用し、ClaudeアプリケーションはAnthropicのClaude SonnetとHaikuモデルを利用します。OpenAIの場合は少し異なり、ユーザー向けアプリケーションであるChatGPTを使用することでGPT-4oやGPT-4o-miniなどのモデルと対話できます。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access