book

FastAPIで生成型AIサービスを作る

by Alireza Parandeh

April 2025

Intermediate to advanced

530 pages

7h 52m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

オブジェクトとアプローチ前提条件書籍の構成この本の読み取り方ハードウェアとソフトウェアの要件本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
ジェネレーティブAIとは何か？ジェネレーティブAIサービスが未来のアプリケーションを支える理由創造的なプロセスを促進する文脈に即した解決策を提案するユーザ体験をパーソナライズする顧客クエリ解決の遅延を最小化する複雑なシステムのインタフェースとして機能する手作業の管理タスクを自動化するコンテンツ生成の拡大と民主化ジェネレーティブAIサービスを構築するにはなぜFastAPIでジェネレーティブAIサービスを構築するのか？ジェネレーティブAIサービスの導入を阻むものキャップストーン・プロジェクトの概要概要
FastAPIの紹介開発環境をセットアップするPython、FastAPI、必須パッケージのインストールシンプルな FastAPI ウェブサーバの作成FastAPIの特徴と利点Flaskのルーティングパターンにインスパイアされた非同期と同期の演算子を扱うバックグラウンド・タスクのビルトイン・サポートカスタムミドルウェアとCORSのサポートあらゆるサービス・レイヤーを自由にカスタマイズできるデータの検証とシリアライゼーションプラグインの豊富なエコシステム自動ドキュメンテーション依存性注入システム生涯イベントセキュリティと認証コンポーネント双方向ウェブソケット、GraphQL、カスタムレスポンスのサポートモダンなPythonとIDEの統合を、センシブルなデフォルトで実現するFastAPI プロジェクト構造フラットな構造入れ子構造モジュラー構造FastAPIプロジェクトを段階的に再編成するオニオン／レイヤー・アプリケーション・デザイン・パターンFastAPIと他のPython Webフレームワークを比較するFastAPI の制限非効率なモデル・メモリ管理スレッド数の制限グローバル・インタプリタ・ロックに制限されるマイクロバッチ処理の推論リクエストのサポートが不足しているAIワークロードをCPUとGPUで効率的に分割できない依存関係の対立リソース集約的なAIワークロードのサポート不足マネージドPython環境とツールのセットアップ概要
生成モデルに奉仕する言語モデルオーディオモデル構想モデルビデオモデル3Dモデル生成AIモデルにサービスを提供するための戦略モデルを選ばない：リクエストごとにモデルを入れ替える計算効率を上げる：FastAPI Lifespanでモデルをプリロードするリーンであれ：モデルを外部に提供するサービス監視におけるミドルウェアの役割概要参考文献
タイプセーフティ入門タイプセーフティの実装タイプ注釈注釈を使うデータクラスパイダンティック・モデルパイダンティックの使い方複合パイダンティックモデルフィールド制約とバリデータカスタムフィールドとモデルバリデータ計算フィールドモデルのエクスポートとシリアライゼーションPydanticで環境変数を解析するFastAPIにおけるデータクラスまたはパイダンティック・モデル概要
GenAIサービスを複数ユーザ向けに最適化する非同期プログラミングによるI/Oタスクの最適化同期実行と非同期（Async）実行の比較モデル・プロバイダAPIを使った非同期プログラミングFastAPIのイベントループとスレッドプールメインサーバをブロックするプロジェクトウェブに話しかける（ウェブスクレイパー）プロジェクト書類と話す（RAG）メモリと計算量に制約のあるAI推論タスクのためのモデルサービングの最適化演算子に縛られないオペレーション外部化モデル・サービング長時間稼働するAI推論タスクを管理する概要参考文献
ウェブ・コミュニケーションのメカニズムレギュラー/ショート・ポーリングロング・ポーリングサーバ送信イベントウェブソケットコミュニケーション・メカニズムの比較SSEエンドポイントの実装GETリクエストによるSSEPOSTリクエストによるSSEWSエンドポイントの実装WebSocketでLLM出力をストリーミングするWebSocketの例外を処理するストリーミング用APIの設計概要

データベースの役割データベースシステムプロジェクトユーザとLLMの会話をリレーショナルデータベースに格納するORMモデルの定義データベースエンジンの作成とセッション管理CRUDエンドポイントの実装リポジトリとサービスのデザインパターンデータベーススキーマの変更を管理するリアルタイムストリームのデータストア概要
認証認可認証メソッド基本認証JSONウェブトークン（JWT）認証OAuth認証を実装するGitHubでOAuth認証を行うOAuth2フロータイプ認可認証モデル役割ベースのアクセス制御リレーションシップに基づくアクセス制御属性ベースのアクセス制御ハイブリッド認証モデル概要
利用節度と悪用防止ガードレール入力ガードレール出力ガードレールガードレールの閾値節度あるガードレールの実装APIレート制限とスロットリングFastAPI でレート制限を実装するリアルタイム・ストリームのスロットリング概要
最適化テクニックバッチ処理キャッシュモデルの量子化構造化された出力プロンプトエンジニアリング微調整概要
テストの重要性ソフトウェアテスト検査の種類ソフトウェアのテストにおける最大の課題計画テスト試験寸法テストデータテスト段階テスト環境テスト戦略GenAIサービステストの課題アウトプットの変数（フレークネス）パフォーマンスとリソースの制約（遅くて高い）回帰バイアス敵対的攻撃非拘束テスト・カバレッジプロジェクトRAGシステムのテストを実装する単体テスト統合テストエンドツーエンドテスト概要
デプロイ・オプション仮想マシンへのデプロイサーバーレス関数へのデプロイマネージドアプリプラットフォームへのデプロイコンテナでデプロイするDockerによるコンテナ化DockerアーキテクチャDockerイメージをビルドするコンテナレジストリコンテナ・ファイルシステムとDockerレイヤーDockerストレージDockerネットワーキングGPUドライバを有効にするDockerコンポーズDocker ComposeでGPUアクセスを有効にするDockerイメージを最適化するdocker init概要

Content preview from FastAPIで生成型AIサービスを作る

第10章 AIサービスの最適化 AIサービスを最適化する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

この章では、プロンプト・エンジニアリング、モデルの量子化、キャッシュ・メカニズムによってサービスをさらに最適化する方法を学ぶ。

最適化テクニック

AIサービスを最適化するオブジェクトは、出力品質かパフォーマンス（遅延、スループット、コストなど）を向上させることだ。

パフォーマンス関連の最適化には以下のようなものがある：

バッチ処理APIを使う
キャッシュ（キーワード、セマンティック、コンテキスト、またはプロンプト）
モデルの量子化

品質関連の最適化には以下のようなものがある：

構造化された出力を使う
迅速なエンジニアリング
モデルの微調整

それぞれを詳しく見ていこう。

バッチ処理

多くの場合、LLMにエントリーのバッチを同時に処理させたい。最も明白な解決策は、エントリごとに複数のAPI呼び出しを送信することである。しかし、明白なアプローチはコストと時間がかかり、モデルプロバイダーのレート制限につながる可能性がある。

このような場合、LLMを通じてデータをバッチ処理する2つのテクニックを活用することができる：

構造化出力スキーマを更新して、複数の例を同時に返す
バッチ処理用に設計されたモデルプロバイダーAPIを特定し、使用する。

最初の解決策は、Pydanticのモデルやテンプレートプロンプトを更新し、リクエストごとに出力リストをリクエストすることである。この場合、エントリごとに1回のリクエストではなく、数回のリクエストでデータをバッチ処理することができる。

第1の解決策の実装を例10-1に示す。

例 10-1. 複数の項目を解析するために構造化出力スキーマを更新する

from pydantic import BaseModel

class BatchDocumentClassification(BaseModel):
    class Category(BaseModel):
        document_id: str
        category: list[str]

    categories: list[Category]