book

マシンラーニング本番システム

by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu

March 2025

Beginner to intermediate

474 pages

7h 11m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本を読むべき人この本を書いた理由本書のナビゲーション本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ロバートハンネスエミリーディ
生産機械学習とは何か？機械学習パイプラインの利点既存モデルの維持ではなく、新モデルの開発に注力するバグを防ぐデバッグと結果再現のためのレコードの作成標準化MLパイプラインのビジネスケース機械学習パイプラインはいつ使うべきか？機械学習パイプラインのステップデータの取り込みとデータのバージョニングデータ検証フィーチャー・エンジニアリングモデルのトレーニングとチューニングモデル分析モデルのデプロイ前途を展望する
データ収集における重要な考慮事項責任あるデータ収集データのラベリングプロダクションMLにおけるデータの変化とドリフトラベリングデータ：ディレクトリ・ラベリングとヒト・ラベリングデータを検証する：データの問題を検出するデータを検証するTensorFlowのデータ検証TFDVによるスキュー検出スキューの種類例TensorFlowデータ検証で不均衡なデータセットを見つける結論
フィーチャー・エンジニアリング入門前処理演算子フィーチャーエンジニアリングのテクニックノーマライゼーションとスタンダード化バケット化フィーチャー・クロス次元と埋め込み視覚化スケールでの特徴変換拡張性の高いフレームワークを選ぶトレーニング・サービスの偏りを避けるインスタンスレベルとフルパス変換を比較するTensorFlow変換を使うアナライザーコード例フィーチャー・セレクションフィーチャー・スペースフィーチャー・セレクションの概要フィルタリング・メソッドラッパー・メソッド組み込みメソッドLLMとGenAIのための特徴と例の選択例TF変換を使ってテキストをトークン化するTFトランスフォームを使う利点 TFトランスフォームに代わるもの結論
データの旅MLメタデータスキーマを使うスキーマ開発スキーマ環境データセット間の変化エンタープライズ・データ・ストレージ特集店舗データウェアハウスデータレイク結論
高度なラベリング半教師付きラベリングアクティブ・ラーニング監督不行き届き高度なラベリング・レビューデータ補強例CIFAR-10その他の増強テクニックデータ補強の見直し時系列データの前処理：例ウィンドウサンプリング結論
次元削減：性能に対する次元の効果例Kerasを使った単語の埋め込み次元の呪いディメンジョンを追加すると、フィーチャースペースのボリュームが増える次元削減量子化とプルーニングモバイル、IoT、エッジ、および類似のユースケース量子化TF LiteでTensorFlowモデルを最適化する最適化オプション剪定知識の蒸留教師と生徒のネットワーク知識の蒸留テクニックTMKD：Q&Aタスクのために知識を抽出するEfficientNetsを蒸留することで堅牢性を高める結論
分散トレーニングデータ並列性効率的な入力パイプライン入力パイプラインの基本入力パイプラインのパターン：効率の向上TensorFlowデータで入力パイプラインを最適化する大規模モデルのトレーニング巨大ニューラルネットと並列性の台頭可能性のある解決策とその欠点パイプラインの並列処理に救いはあるか？結論
モデルのパフォーマンスを分析するブラックボックス評価パフォーマンス・メトリクスと最適化オブジェクト高度なモデル分析TensorFlowモデル分析学習インタプリタ・ツール高度なモデルのデバッグベンチマークモデル感度分析残留分析修復モデル差別是正公平性公正な評価公平性への配慮継続的な評価とモニタリング結論

説明可能なAIモデル解釈メソッドメソッドカテゴリー本質的に解釈可能なモデルモデル認識メソッド局所的に解釈可能なモデル-不可知論的説明シャプレーの価値観SHAPライブラリー概念活性化ベクターのテスト AIによる説明例SHAPでモデルの感度を探る回帰モデル自然言語処理モデル結論
ハイパーパラメーターのチューニングAutoML入門NASの主要コンポーネント検索スペース検索戦略パフォーマンス推定戦略クラウドのAutoMLAmazon SageMaker オートパイロットMicrosoft Azure 自動マシンラーニングGoogle Cloud AutoMLAutoMLを使うジェネレーティブAIとAutoML結論
モデルトレーニングモデル予測遅延スループットコストサーヴィス・モデルのリソースと要件コストと複雑さアクセラレーター野獣に餌を与えるモデルのデプロイデータセンターのデプロイモバイルと分散デプロイモデルサーバマネージド・サービス結論
バッチ推論バッチスループットバッチ推論の使用例分散バッチ処理およびストリーム処理システムのためのETLリアルタイム推論入門リアルタイム予測の同期配信リアルタイム予測の非同期配信リアルタイム推論の最適化リアルタイム推論の使用例モデル・アンサンブルに奉仕するアンサンブル・トポロジーアンサンブル例アンサンブルのサーブに関する考察モデルルーターGenAIにおけるアンサンブルリアルタイムでのデータ前処理と後処理トレーニングの変化とサーブの変化ウィンドウ前処理のオプションTensorFlowトランスフォームに入る後処理エッジとブラウザでの推論課題コンテナによるデプロイモデル機器に関するトレーニングフェデレーテッド・ラーニングランタイムの相互運用性ウェブブラウザにおける推論結論
モデルサーバTensorFlowサーヴィングNVIDIA Triton推論サーバトーチサーブスケーラブルなインフラを構築するコンテナ化従来のデプロイ時代仮想デプロイの時代コンテナデプロイの時代Dockerコンテナ化フレームワークコンテナオーケストレーション冗長性による信頼性と可用性可観測性高可用性デプロイの自動化ハードウェア・アクセラレーターGPUTPU結論
例TensorFlow ServingでTensorFlowモデルをデプロイするTFサービング用にKerasモデルをエクスポートするDockerでTF ServingをセットアップするTFサービングの基本構成RESTでモデル予測リクエストを行うgRPCでモデル予測リクエストを行う分類モデルと回帰モデルから予測を得るペイロードを使うTFサービングからモデルのメタデータを取得する一括推論リクエストを行う例TFプロファイラによるTFサーヴィングのプロファイリング前提条件TensorBoardのセットアップモデルプロフィール例TorchServeの基本セットアップTorchServeの依存関係をインストールするモデルをTorchServe用にエクスポートするTorchServeのセットアップモデルの予測依頼をする一括推論リクエストを行う結論
実験追跡ノートブックで実験する全体的な実験実験のトラッキングとバージョン管理のためのツールMLOpsの紹介データサイエンティストとソフトウェアエンジニアMLエンジニア製品とサービスにおけるMLMLOpsMLOpsの方法論MLOpsレベル0MLOpsレベル1MLOpsレベル2オーケストレーションされたワークフローの構成要素3種類のカスタム・コンポーネントPython 関数ベースのコンポーネントコンテナベースのコンポーネントフルカスタムコンポーネントTFX ディープ・ダイブTFX SDK中間表現ランタイムTFX コンポーネントを用いた ML パイプラインの実装TFXの高度な機能モデルのバージョンを管理するバージョニング・モデルへのアプローチモデルの系譜モデルレジストリ継続的インテグレーションと継続的デプロイ継続的インテグレーション継続的デリバリプログレッシブデリバリブルーグリーンデプロイカナリアのデプロイライブ実験結論
モニタリングの重要性マシン学習における可観測性何を監視すべきか？TFX におけるカスタムアラートロギング分散トレーシングモデル崩壊のモニタリングデータ・ドリフトと概念ドリフトモデル崩壊検出監視付きモニタリングテクニック教師なしモニタリングテクニックモデル崩壊を軽減するモデルを鍛え直す再トレーニングの時期自動再トレーニング結論
なぜデータプライバシーが重要なのか？非公開にすべきデータとは何か？ハームス必要なものだけを集めるGenAIはウェブやその他のソースからデータを収集した法的要件GDPRとCCPAGDPRの「忘れられる権利」について仮名化と匿名化差別化されたプライバシーローカルDPとグローバルDPエプシロンデルタDP差分プライバシーをMLに適用するTensorFlowのプライバシーの例フェデレーテッド・ラーニング暗号化されたML結論
パイプライン・オーケストレーション入門なぜパイプライン・オーケストレーションなのか？有向非周期グラフTFX によるパイプラインオーケストレーションインタラクティブTFXパイプラインインタラクティブ・パイプラインをプロダクション用に変換する Apache BeamでTFXパイプラインをオーケストレーションするKubeflow パイプラインで TFX パイプラインをオーケストレーションするKubeflowパイプライン入門インストールと初期化KubeflowパイプラインにアクセスするTFXからKubeflowへのワークフローOpFunc関数KubeflowパイプラインのオーケストレーションGoogle Cloud VertexパイプラインGoogle CloudとVertexパイプラインのセットアップGoogle Cloudサービスのアカウントをセットアップする頂点パイプラインでパイプラインをオーケストレーションする頂点パイプラインを実行するオーケストレーションを選択するインタラクティブ金融取アパッチ・ビームKubeflowパイプラインGoogle Cloud Vertexパイプライン金融取の代替案結論
高度なパイプラインの実践コンポーネントを設定する成果物をインポートするリゾルバノードを使用する条件付きパイプラインを実行する TFライトモデル輸出ウォームスタート・モデル・トレーニングイグジット・ハンドラを使う金融取からのトリガー・メッセージカスタム TFX コンポーネント：アーキテクチャと使用例TFX コンポーネントのアーキテクチャカスタム・コンポーネントの使用例関数ベースのカスタムコンポーネントを使うカスタムコンポーネントをゼロから書くコンポーネント仕様の定義コンポーネント・チャンネルの定義カスタムエクゼキュータを書くカスタムドライバーを書くカスタムコンポーネントを組み立てる基本的なカスタム・コンポーネントを使う実装レビュー既存のコンポーネントを再利用するコンテナベースのカスタムコンポーネントを作成するどのカスタム・コンポーネントが最適か？TFX-アドオン結論
データ我々のモデルカスタム・インジェスト・コンポーネントデータの前処理モデルをエクスポートするパイプラインデータの取り込みデータの前処理モデルトレーニングモデル評価モデル輸出すべてをまとめる Apache Beamで実行する頂点パイプラインで実行する TensorFlow Servingによるモデルのデプロイ結論
データ我々のモデル摂取成分データの前処理パイプラインをまとめるパイプラインを実行する Google Cloud Vertexを使ったモデルのデプロイMLモデルを登録する新しいモデルのエンドポイントを作成するMLモデルをデプロイするデプロイされたモデルに予測を求めるデプロイしたモデルをクリーンアップする結論
生成モデルGenAIモデルの種類エージェントとコパイロット事前トレーニング事前学習データセット埋め込みマスクによる自己教師ありトレーニング微調整微調整と転移学習の比較データセットを微調整する本番での微調整微調整とモデルAPIの比較パラメータ効率の良い微調整LORAS-ロラヒューマン・アライメント人間のフィードバックからの強化学習AIフィードバックからの強化学習直接選好最適化プロンプティングチェーン検索拡張世代リアクト評価評価テクニックモデル間のベンチマークLMOpsGenAIの攻撃脱獄迅速な注射責任あるGenAIレスポンスのためのデザイン敵対的テストを実施する立憲AI結論
MLモデルではなくMLシステムで考えようMLシステムをドメイン専門家に近づけるプライバシーはかつてないほど重要になっている結論

Content preview from マシンラーニング本番システム

第13章. モデル・サービング・インフラストラクチャー

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

他のアプリケーションと同じように、MLインフラは、自社内のハードウェアインフラ上でトレーニングし、デプロイすることができる。しかし、このアプローチでは、ハードウェア（物理マシン）と、大規模モデル（ディープニューラルネットワーク、DNN）のトレーニングと推論用のGPUを調達する必要がある。これは、MLアプリケーションを長期間にわたって実行・維持する大企業にとっては実行可能な方法である。

中小企業や個人チームにとって実行可能な選択肢は、クラウド上にデプロイし、Amazon Web Services（AWS）、Google Cloud Platform（GCP）、Microsoft Azureなどのクラウドサービスプロバイダが提供するハードウェアインフラを活用することだ。一般的なクラウドサービスプロバイダのほとんどは、MLモデルに特化したトレーニングやデプロイソリューションを用意している。これには、GCP上のAutoMLやAWS上のAmazon SageMaker Autopilotが含まれる。

オンプレミス（自社のハードウェアインフラ）でMLモデルをデプロイする場合、TensorFlow Serving、KServe、NVIDIA Tritonなどのオープンソースの構築済みモデルサーバを使用することができる。

MLモデルをクラウド上にデプロイする場合、EC2やGoogle Compute Engineなどの仮想マシン（VM）上に学習済みモデルをデプロイし、TensorFlow Servingなどのモデルサーバを使用して推論要求を処理することができる。あるいは、Google Kubernetes Engineのようなコンピュートクラスタを利用することもできる。

クラウドサービスプロバイダは、データクリーニング、データ準備、フィーチャーエンジニアリング、トレーニング、検証、モデルモニタリング、デプロイなど、MLのワークフロー全体を管理するソリューションも提供している。そのようなサービスの例としては、Amazon SageMaker、Google Vertex AI、Microsoft Azureなどがある。

この章では、現在利用可能なモデルサーバをいくつか紹介し、スケーラブルなサービングインフラを構築する方法を見ていく。また、コンテナ・ベースのアプローチを使ってサービング・インフラを実装し、それを拡張できるようにする方法についても説明する。最後に、冗長性を利用することで、サーバーの信頼性と可用性を常に確保する方法を検討する。

モデルサーバ

オンプレミスであれクラウドであれ、モデルサーバはMLモデルを大規模にデプロイするタスクを簡素化する。APIを提供するタスクを簡素化するアプリケーションサーバに似ている。モデルサーバーはスケーリングとパフォーマンスを処理し、モデルのライフサイクル管理をある程度行うことができる。

最新のモデルサーバーの多くは、通常RESTやgRPCエンドポイントを通してアクセスできる。クライアントはモデル・サーバに推論リクエストを送信し、モデル・サーバは学習済みモデルにクエリを発行して推論結果を取得し、クライアントに返す。TensorFlow Servingから始まり、NVIDIA Triton、TorchServeと続く。