第9章 スケーリングハードウェア、インフラ、リソース管理
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
のデプロイとLLMの管理は、インフラストラクチャーとリソース管理の領域で、ユニークな課題と機会を提供する。LLMは、本書を通しておわかりのように、コンピューティングリソースを大量に必要とし、効率的に演算子するには、かなりのハードウェア、ストレージ、およびネットワークリソースを必要とする。LLMをクラウドベースのサービスとして活用する場合でも、オンプレミスのデータセンターで事前にトレーニングされたモデルをデプロイする場合でも、独自のモデルをゼロからトレーニングする場合でも、インフラの決定がパフォーマンス、スケーラビリティ、費用対効果の高さに影響する。
LLMの効果的なリソース管理には、コンピューティングリソース、メモリ、ストレージの最適化が含まれる。この章では、ハードウェア要件やデプロイ戦略など、LLMのためのインフラストラクチャの主要な構成要素を探る。また、本番環境におけるリソース利用の最適化、コスト管理、信頼性維持のためのベストプラクティスについても説明する。この章は、大規模AIアプリケーションのリソース管理に関わるトレードオフを理解するのに役立つ。
適切なアプローチを選択する
LLMの適切な使用方法の選択は、LLMを使用したいアプリケーションの要件に依存する。新興企業や小規模アプリケーションの場合、クラウドから直接モデルを使用するのが最も迅速で費用対効果の高い解決策となる。特別な要件や高いワークロードを抱える企業にとっては、クラウドインフラ上にLLMをデプロイすることで、柔軟性とスケーラビリティの適切なバランスを発見することができる。最後に、厳格なデータプライバシーや遅延要件がある演算子にとって、ローカルデプロイは比類のない制御とセキュリティを提供するが、その代償として運用の複雑さが増す。
各アプローチのトレードオフを慎重に評価することで、組織はLLMデプロイ戦略を技術的およびビジネス上のオブジェクトと整合させることができ、トランスフォーマーであるAIテクノロジーを効率的かつ効果的に活用することができる。
どの解決策を選ぶにせよ、私が提案するのは、常にサードパーティのAPIベースのアプローチから始めること、つまり、クラウドから直接モデルを使うことから始めることだ。私が実世界でのデプロイで観察した大きな問題のひとつは、LLMが与えられた問題に対して良い解決策かどうかを見極めることだ。サードパーティのAPIベースのアプローチを使えば、インフラに大きな数のリソースをコミットする前に、プロトタイピングでその疑問に答えることができる。
スケーリングとリソース割り当て
LLMベースのアプリケーションでパフォーマンス、費用対効果、 信頼性を維持するには、リソースをうまく管理する必要がある。リソース、特にAIシステムを動かすのに必要なGPUやメモリ帯域幅など、需要の高いリソースを全体的に割り当てると、不必要な出費につながる。リソースの割り当てが不十分だと、システムクラッシュやユーザ体験の低下のリスクにさらされる。
トレーニングの失敗のほとんどは、コンピュートではなくメモリ不足に起因する。私はこれを "氷山問題 "と呼んでいる。目に見える先端は失敗であるが、本当の隠れた問題はその下にあるメモリの非効率性である。ほとんどの人は、最適でないメモリ使用が気づかれず、十分に活用されていないことが本当のミスアウトであることに気づいていない。こうして、人々は多くのパフォーマンスをテーブルの上に置き去りにしてしまうのだ。メモリの壁にぶつかっているのなら、まだハードウェアの増設に手を伸ばすべきではない。シャーディング、アクティブ化チェックポイント、ダイナミックバッチ、モデルオフロードなどのメソッドを正しく使えば、24GBのコンシューマGPUを48GBのA100のように簡単に動作させることができる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access