book

マシンラーニング本番システム

by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu

March 2025

Beginner to intermediate

474 pages

7h 11m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本を読むべき人この本を書いた理由本書のナビゲーション本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ロバートハンネスエミリーディ
生産機械学習とは何か？機械学習パイプラインの利点既存モデルの維持ではなく、新モデルの開発に注力するバグを防ぐデバッグと結果再現のためのレコードの作成標準化MLパイプラインのビジネスケース機械学習パイプラインはいつ使うべきか？機械学習パイプラインのステップデータの取り込みとデータのバージョニングデータ検証フィーチャー・エンジニアリングモデルのトレーニングとチューニングモデル分析モデルのデプロイ前途を展望する
データ収集における重要な考慮事項責任あるデータ収集データのラベリングプロダクションMLにおけるデータの変化とドリフトラベリングデータ：ディレクトリ・ラベリングとヒト・ラベリングデータを検証する：データの問題を検出するデータを検証するTensorFlowのデータ検証TFDVによるスキュー検出スキューの種類例TensorFlowデータ検証で不均衡なデータセットを見つける結論
フィーチャー・エンジニアリング入門前処理演算子フィーチャーエンジニアリングのテクニックノーマライゼーションとスタンダード化バケット化フィーチャー・クロス次元と埋め込み視覚化スケールでの特徴変換拡張性の高いフレームワークを選ぶトレーニング・サービスの偏りを避けるインスタンスレベルとフルパス変換を比較するTensorFlow変換を使うアナライザーコード例フィーチャー・セレクションフィーチャー・スペースフィーチャー・セレクションの概要フィルタリング・メソッドラッパー・メソッド組み込みメソッドLLMとGenAIのための特徴と例の選択例TF変換を使ってテキストをトークン化するTFトランスフォームを使う利点 TFトランスフォームに代わるもの結論
データの旅MLメタデータスキーマを使うスキーマ開発スキーマ環境データセット間の変化エンタープライズ・データ・ストレージ特集店舗データウェアハウスデータレイク結論
高度なラベリング半教師付きラベリングアクティブ・ラーニング監督不行き届き高度なラベリング・レビューデータ補強例CIFAR-10その他の増強テクニックデータ補強の見直し時系列データの前処理：例ウィンドウサンプリング結論
次元削減：性能に対する次元の効果例Kerasを使った単語の埋め込み次元の呪いディメンジョンを追加すると、フィーチャースペースのボリュームが増える次元削減量子化とプルーニングモバイル、IoT、エッジ、および類似のユースケース量子化TF LiteでTensorFlowモデルを最適化する最適化オプション剪定知識の蒸留教師と生徒のネットワーク知識の蒸留テクニックTMKD：Q&Aタスクのために知識を抽出するEfficientNetsを蒸留することで堅牢性を高める結論
分散トレーニングデータ並列性効率的な入力パイプライン入力パイプラインの基本入力パイプラインのパターン：効率の向上TensorFlowデータで入力パイプラインを最適化する大規模モデルのトレーニング巨大ニューラルネットと並列性の台頭可能性のある解決策とその欠点パイプラインの並列処理に救いはあるか？結論
モデルのパフォーマンスを分析するブラックボックス評価パフォーマンス・メトリクスと最適化オブジェクト高度なモデル分析TensorFlowモデル分析学習インタプリタ・ツール高度なモデルのデバッグベンチマークモデル感度分析残留分析修復モデル差別是正公平性公正な評価公平性への配慮継続的な評価とモニタリング結論

説明可能なAIモデル解釈メソッドメソッドカテゴリー本質的に解釈可能なモデルモデル認識メソッド局所的に解釈可能なモデル-不可知論的説明シャプレーの価値観SHAPライブラリー概念活性化ベクターのテスト AIによる説明例SHAPでモデルの感度を探る回帰モデル自然言語処理モデル結論
ハイパーパラメーターのチューニングAutoML入門NASの主要コンポーネント検索スペース検索戦略パフォーマンス推定戦略クラウドのAutoMLAmazon SageMaker オートパイロットMicrosoft Azure 自動マシンラーニングGoogle Cloud AutoMLAutoMLを使うジェネレーティブAIとAutoML結論
モデルトレーニングモデル予測遅延スループットコストサーヴィス・モデルのリソースと要件コストと複雑さアクセラレーター野獣に餌を与えるモデルのデプロイデータセンターのデプロイモバイルと分散デプロイモデルサーバマネージド・サービス結論
バッチ推論バッチスループットバッチ推論の使用例分散バッチ処理およびストリーム処理システムのためのETLリアルタイム推論入門リアルタイム予測の同期配信リアルタイム予測の非同期配信リアルタイム推論の最適化リアルタイム推論の使用例モデル・アンサンブルに奉仕するアンサンブル・トポロジーアンサンブル例アンサンブルのサーブに関する考察モデルルーターGenAIにおけるアンサンブルリアルタイムでのデータ前処理と後処理トレーニングの変化とサーブの変化ウィンドウ前処理のオプションTensorFlowトランスフォームに入る後処理エッジとブラウザでの推論課題コンテナによるデプロイモデル機器に関するトレーニングフェデレーテッド・ラーニングランタイムの相互運用性ウェブブラウザにおける推論結論
モデルサーバTensorFlowサーヴィングNVIDIA Triton推論サーバトーチサーブスケーラブルなインフラを構築するコンテナ化従来のデプロイ時代仮想デプロイの時代コンテナデプロイの時代Dockerコンテナ化フレームワークコンテナオーケストレーション冗長性による信頼性と可用性可観測性高可用性デプロイの自動化ハードウェア・アクセラレーターGPUTPU結論
例TensorFlow ServingでTensorFlowモデルをデプロイするTFサービング用にKerasモデルをエクスポートするDockerでTF ServingをセットアップするTFサービングの基本構成RESTでモデル予測リクエストを行うgRPCでモデル予測リクエストを行う分類モデルと回帰モデルから予測を得るペイロードを使うTFサービングからモデルのメタデータを取得する一括推論リクエストを行う例TFプロファイラによるTFサーヴィングのプロファイリング前提条件TensorBoardのセットアップモデルプロフィール例TorchServeの基本セットアップTorchServeの依存関係をインストールするモデルをTorchServe用にエクスポートするTorchServeのセットアップモデルの予測依頼をする一括推論リクエストを行う結論
実験追跡ノートブックで実験する全体的な実験実験のトラッキングとバージョン管理のためのツールMLOpsの紹介データサイエンティストとソフトウェアエンジニアMLエンジニア製品とサービスにおけるMLMLOpsMLOpsの方法論MLOpsレベル0MLOpsレベル1MLOpsレベル2オーケストレーションされたワークフローの構成要素3種類のカスタム・コンポーネントPython 関数ベースのコンポーネントコンテナベースのコンポーネントフルカスタムコンポーネントTFX ディープ・ダイブTFX SDK中間表現ランタイムTFX コンポーネントを用いた ML パイプラインの実装TFXの高度な機能モデルのバージョンを管理するバージョニング・モデルへのアプローチモデルの系譜モデルレジストリ継続的インテグレーションと継続的デプロイ継続的インテグレーション継続的デリバリプログレッシブデリバリブルーグリーンデプロイカナリアのデプロイライブ実験結論
モニタリングの重要性マシン学習における可観測性何を監視すべきか？TFX におけるカスタムアラートロギング分散トレーシングモデル崩壊のモニタリングデータ・ドリフトと概念ドリフトモデル崩壊検出監視付きモニタリングテクニック教師なしモニタリングテクニックモデル崩壊を軽減するモデルを鍛え直す再トレーニングの時期自動再トレーニング結論
なぜデータプライバシーが重要なのか？非公開にすべきデータとは何か？ハームス必要なものだけを集めるGenAIはウェブやその他のソースからデータを収集した法的要件GDPRとCCPAGDPRの「忘れられる権利」について仮名化と匿名化差別化されたプライバシーローカルDPとグローバルDPエプシロンデルタDP差分プライバシーをMLに適用するTensorFlowのプライバシーの例フェデレーテッド・ラーニング暗号化されたML結論
パイプライン・オーケストレーション入門なぜパイプライン・オーケストレーションなのか？有向非周期グラフTFX によるパイプラインオーケストレーションインタラクティブTFXパイプラインインタラクティブ・パイプラインをプロダクション用に変換する Apache BeamでTFXパイプラインをオーケストレーションするKubeflow パイプラインで TFX パイプラインをオーケストレーションするKubeflowパイプライン入門インストールと初期化KubeflowパイプラインにアクセスするTFXからKubeflowへのワークフローOpFunc関数KubeflowパイプラインのオーケストレーションGoogle Cloud VertexパイプラインGoogle CloudとVertexパイプラインのセットアップGoogle Cloudサービスのアカウントをセットアップする頂点パイプラインでパイプラインをオーケストレーションする頂点パイプラインを実行するオーケストレーションを選択するインタラクティブ金融取アパッチ・ビームKubeflowパイプラインGoogle Cloud Vertexパイプライン金融取の代替案結論
高度なパイプラインの実践コンポーネントを設定する成果物をインポートするリゾルバノードを使用する条件付きパイプラインを実行する TFライトモデル輸出ウォームスタート・モデル・トレーニングイグジット・ハンドラを使う金融取からのトリガー・メッセージカスタム TFX コンポーネント：アーキテクチャと使用例TFX コンポーネントのアーキテクチャカスタム・コンポーネントの使用例関数ベースのカスタムコンポーネントを使うカスタムコンポーネントをゼロから書くコンポーネント仕様の定義コンポーネント・チャンネルの定義カスタムエクゼキュータを書くカスタムドライバーを書くカスタムコンポーネントを組み立てる基本的なカスタム・コンポーネントを使う実装レビュー既存のコンポーネントを再利用するコンテナベースのカスタムコンポーネントを作成するどのカスタム・コンポーネントが最適か？TFX-アドオン結論
データ我々のモデルカスタム・インジェスト・コンポーネントデータの前処理モデルをエクスポートするパイプラインデータの取り込みデータの前処理モデルトレーニングモデル評価モデル輸出すべてをまとめる Apache Beamで実行する頂点パイプラインで実行する TensorFlow Servingによるモデルのデプロイ結論
データ我々のモデル摂取成分データの前処理パイプラインをまとめるパイプラインを実行する Google Cloud Vertexを使ったモデルのデプロイMLモデルを登録する新しいモデルのエンドポイントを作成するMLモデルをデプロイするデプロイされたモデルに予測を求めるデプロイしたモデルをクリーンアップする結論
生成モデルGenAIモデルの種類エージェントとコパイロット事前トレーニング事前学習データセット埋め込みマスクによる自己教師ありトレーニング微調整微調整と転移学習の比較データセットを微調整する本番での微調整微調整とモデルAPIの比較パラメータ効率の良い微調整LORAS-ロラヒューマン・アライメント人間のフィードバックからの強化学習AIフィードバックからの強化学習直接選好最適化プロンプティングチェーン検索拡張世代リアクト評価評価テクニックモデル間のベンチマークLMOpsGenAIの攻撃脱獄迅速な注射責任あるGenAIレスポンスのためのデザイン敵対的テストを実施する立憲AI結論
MLモデルではなくMLシステムで考えようMLシステムをドメイン専門家に近づけるプライバシーはかつてないほど重要になっている結論

Content preview from マシンラーニング本番システム

第20章. 構想問題のためのMLパイプライン

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

この章と次の章では、一般的なML問題の全体像を示す2つのMLパイプラインを説明する。問題を設定し、その解決策をどのように実装したかを紹介する。前の章を読み取り、その詳細を参照することを前提とする。

この章では、典型的なコンピュータ・ビジョンの問題を説明する。我々は画像分類問題のためのMLパイプラインを設計している。MLモデルそのものは驚くようなものではないが、複雑なモデルを作ることが目的ではない。私たちはモデルをシンプルなものにしたかった。そうすれば、MLパイプライン（ML本番システムの興味深い側面）に集中できる。

この例では、ペットの画像をネコとイヌに分類するMLモデルを学習したい（図20-1）。

この例では、MLモデルについて簡単に説明し、前の章を踏まえてパイプラインに焦点を当てる。特に、画像データをどのようにインジェストするか、あるいはどのように前処理するかについて強調する。

警告

この記事を書いている時点では、TFXはアップルのシリコン・アーキテクチャに基づくノートPCをサポートしていない。このアーキテクチャに基づくノートPC（例えばM1s）を使用している場合は、GoogleのColabをTFXと連携させることを強くお勧めする。

データ

この例では、Microsoft Researchが編集した公開データセットを使用する。このデータは、犬と猫の写真25,000枚からなり、2つのフォルダに分けられている。サンプルコードには2つのシェルスクリプトが含まれており、それぞれの環境（ローカルデプロイ、Kubeflow、Google Cloud Vertex）にデータをセットアップするのに役立つ。1つのスクリプトは、データセットをローカルコンピューターにダウンロードする。このスクリプトは、自分のコンピューターから例に従いたい場合に使用する。リモートのGoogle Cloudバケットにデータセットをダウンロードしてセットアップするシェルスクリプトも提供する（computer_vision/scripts/set_up_vertex_run.sh）。

我々のモデル

サンプルモデルはTensorFlowとKerasを使って実装した。MobileNetと呼ばれるKaggleの事前学習済みモデルを再利用した。MobileNetは、何年もの間、コンピュータ・ビジョンの問題解決に最適な選択肢だった。このモデルは160×160×3ピクセルの画像を受け付ける。事前訓練されたモデルはベクトルを出力し、それをニューラルネットワークの密なレイヤーを通してさらに制約し、最後に出力ノード（1つはカテゴリー「犬」を表し、もう1つはカテゴリー「猫」を表す）を持つソフトマックス・レイヤーを通して制約する。

コード全体の設定を以下のコードブロックに示す：

  image_input = tf.keras.layers.Input(
      shape=(constants.PIXELS, constants.PIXELS, 3),
      name=utils.transformed_name ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341633643Supplemental Content

マシンラーニング本番システム

by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu

第20章. 構想問題のためのMLパイプライン

図20-1. 分類問題

警告

データ

我々のモデル

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

ベタープログラマ ―優れたプログラマになるための38の考え方とテクニック

DeFiを理解する

インタフェースの設計第3版

データサイエンスのための数学入門 ―Pythonで学ぶ線形代数、確率、統計の基礎

Publisher Resources

第20章. 構想問題のためのMLパイプライン

図20-1. 分類問題

警告

データ

我々のモデル

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

ベタープログラマ ―優れたプログラマになるための38の考え方とテクニック

DeFiを理解する

インタフェースの設計 第3版

データサイエンスのための数学入門 ―Pythonで学ぶ線形代数、確率、統計の基礎

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

インタフェースの設計第3版