8章モデルのデプロイの最適化
モデルを対象のタスク向けに調整したら、最終的にモデルをデプロイすることになるでしょう。デプロイすることで、モデルとのやりとりが可能になります。さらには、基盤モデルを利用するように設計されたアプリケーションに統合することもできるようになります。
基盤モデルのデプロイ前に、モデルのホスティングに必要なリソースに加え、モデルがどのように使われるのかというユーザー体験についても、理解しておく必要があります。モデルが要するリソースの面では、様々な要件を特定しておくべきです。例えば、モデルに必要な応答生成速度、計算リソースに割ける予算、推論の高速化とストレージコスト削減を実現する代わりにモデルの性能面で受け入れる妥協点、等です。
この章では、モデルに対し学習後に最適化を実行するためのテクニックとして、プルーニング、量子化、蒸留等を探ります。さらにデプロイ後にも、コストと性能のバランスを取るために最適な計算リソースを選択するなど、他に検討すべき点が出てきたり、場合によってはデプロイ設定の調整が必要になったりします。
8.1 推論のためのモデル最適化
生成AIモデルのサイズは、デプロイの際によく問題になります。生成AIモデルはサイズが大きくなりがちであるため、計算、ストレージ、メモリーといった要件の問題が起きたり、低レイテンシーでの応答生成を保証する方法に関する問題が生じることがあります。デプロイ最適化の手段として基本的なのは、モデルのサイズ縮小をねらった、モデル圧縮と通常呼ばれるテクニックの活用です。モデルのサイズを小さくすることで、高速にロードできるようになり、レイテンシーを低減できます。また、計算、ストレージ、メモリーの面でのリソース要件も引き下げます。
Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.