book

入門機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化

Name: 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化
ISBN: 9784873119519

by Hannes Hapke, Catherine Nelson, 中山光樹

September 2021

Intermediate to advanced

392 pages

6h 8m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　大扉
　原書大扉
　クレジット
　賞賛の声
　序文
　訳者まえがき
　まえがき
　　　　Hannesより　　　　Catherineより
　1章　イントロダクション
　　1.1　機械学習パイプラインの必要性　　1.2　機械学習パイプラインについて考えるべき時　　1.3　機械学習パイプラインの各ステップの概要　　　1.3.1　データの取り込みとバージョン管理　　　1.3.2　データの検証　　　1.3.3　データの前処理　　　1.3.4　モデルの学習とチューニング　　　1.3.5　モデルの分析　　　1.3.6　モデルのバージョン管理　　　1.3.7　モデルのデプロイ　　　1.3.8　フィードバックループ　　　1.3.9　データプライバシー　　1.4　パイプラインオーケストレーション　　　1.4.1　パイプラインオーケストレーションの必要性　　　1.4.2　有向非巡回グラフ　　1.5　サンプルプロジェクト　　　1.5.1　プロジェクト構造　　　1.5.2　今回の機械学習モデル　　　1.5.3　サンプルプロジェクトのゴール　　1.6　まとめ
　2章　TensorFlow Extended入門
　　2.1　TFXとは　　2.2　TFXのインストール　　2.3　TFXコンポーネントの概要　　2.4　ML Metadata　　2.5　インタラクティブパイプライン　　2.6　TFXの代替品　　2.7　Apache Beam入門　　　2.7.1　セットアップ　　　2.7.2　基礎的なデータパイプライン　　　　2.7.2.1　コレクションの例　　　　2.7.2.2　変換の例　　　　2.7.2.3　パイプライン全体　　2.8　パイプライン実行の基礎　　2.9　まとめ
　3章　データの取り込み
　　3.1　データ取り込みの概念　　　　　TFRecord　　　3.1.1　ローカルデータファイルの取り込み　　　　3.1.1.1　CSVをtf.train.Exampleに変換　　　　3.1.1.2　作成済みのTFRecordファイルのインポート　　　　3.1.1.3　Parquetをtf.train.Exampleに変換　　　　3.1.1.4　Avroをtf.train.Exampleに変換　　　　3.1.1.5　カスタムデータをTFRecordに変換　　　3.1.2　リモートデータファイルの取り込み　　　3.1.3　データベースから直接取り込み　　　　3.1.3.1　Google Cloud BigQuery　　　　　Google Cloudの認証情報　　　　3.1.3.2　Prestoデータベース　　3.2　データ準備　　　3.2.1　データセットの分割　　　　3.2.1.1　データセットをサブセットに分割　　　　3.2.1.2　既存の分割を保持　　　3.2.2　スパン化したデータセット　　　3.2.3　データセットのバージョン管理　　3.3　取り込み戦略　　　3.3.1　構造化データ　　　3.3.2　テキストデータ　　　3.3.3　画像データ　　3.4　まとめ

　4章　データ検証
　　4.1　データ検証の必要性　　4.2　TFDV　　　4.2.1　インストール　　　4.2.2　統計量の生成　　　4.2.3　スキーマの生成　　4.3　データに潜む問題の認識　　　4.3.1　データセットの比較　　　4.3.2　スキーマの更新　　　4.3.3　データのスキューとドリフト　　　4.3.4　バイアスのあるデータセット　　　4.3.5　TFDVで行うデータのスライス　　4.4　GCP上で大規模データセットの処理　　4.5　TFDVと機械学習パイプラインの統合　　4.6　まとめ
　5章　データ前処理
　　5.1　データ前処理の必要性　　　5.1.1　データセット全体のコンテキストでデータを前処理　　　5.1.2　前処理のスケーリング　　　5.1.3　学習―推論間のスキューを回避　　　　　学習―推論間のスキュー（Training-Serving Skew）とは　　　5.1.4　前処理とモデルを1つのアーティファクトとしてデプロイ　　　5.1.5　パイプラインで前処理結果の確認　　5.2　TFTによるデータ前処理　　　5.2.1　インストール　　　5.2.2　前処理戦略　　　5.2.3　ベストプラクティス　　　5.2.4　TFTの関数　　　　5.2.4.1　テキストデータ用の関数　　　　5.2.4.2　画像データ用の関数　　　5.2.5　TFT単体の実行　　　5.2.6　TFTと機械学習パイプラインの統合　　5.3　まとめ
　6章　モデルの学習
　　6.1　サンプルプロジェクトのモデル定義　　6.2　TFXのTrainerコンポーネント　　　6.2.1　run_fn関数　　　　6.2.1.1　データの読み込み　　　　6.2.1.2　モデルのコンパイルと学習　　　　6.2.1.3　モデルのエクスポート　　　6.2.2　Trainerコンポーネントの実行　　　6.2.3　その他の検討事項　　　　6.2.3.1　Estimatorモデルで使うTrainerコンポーネント　　　　6.2.3.2　パイプライン外で使うSavedModel　　6.3　インタラクティブパイプラインで使うTensorBoard　　6.4　分散戦略　　6.5　モデルのチューニング　　　6.5.1　ハイパーパラメータチューニングの戦略　　　6.5.2　TFXパイプラインでのハイパーパラメータチューニング　　6.6　まとめ
　7章　モデル分析と検証
　　7.1　モデルの分析方法　　　7.1.1　分類の指標　　　7.1.2　回帰の指標　　7.2　TensorFlow Model Analysis　　　7.2.1　単一モデルの分析　　　7.2.2　複数モデルの分析　　7.3　公平性のためのモデル分析　　　7.3.1　TFMAでモデル予測のスライス　　　7.3.2　Fairness Indicatorsを使ったカットオフ値の確認　　　7.3.3　What-If Toolの掘り下げ　　7.4　モデルの説明可能性　　　7.4.1　WITを用いた説明の生成　　　7.4.2　その他説明可能性のテクニック　　　　　Shapley値　　7.5　TFXによる分析と検証　　　7.5.1　ResolverNode　　　7.5.2　Evaluatorコンポーネント　　　7.5.3　Evaluatorコンポーネントによる検証　　　7.5.4　Pusherコンポーネント　　7.6　まとめ
　8章　TensorFlow Servingを用いたモデルのデプロイ
　　8.1　シンプルなモデルサーバー　　8.2　PythonベースのAPIとしてモデルをデプロイする欠点　　　8.2.1　コード分離の欠如　　　8.2.2　モデルのバージョン管理の欠如　　　8.2.3　非効率なモデルの推論　　8.3　TensorFlow Serving　　8.4　TensorFlow Servingのアーキテクチャ概要　　8.5　TensorFlow Serving用のモデルエクスポート　　8.6　モデルシグネチャ　　　8.6.1　シグネチャメソッド　　8.7　エクスポートしたモデルの検査　　　8.7.1　モデルの検査　　　8.7.2　モデルのテスト　　8.8　TensorFlow Servingのセットアップ　　　8.8.1　Dockerによるインストール　　　8.8.2　Ubuntuにインストール　　　8.8.3　TensorFlow Servingをソースからビルド　　8.9　TensorFlow Serverの設定　　　8.9.1　単一モデルの設定　　　8.9.2　複数モデルの設定　　　　　特定のモデルバージョンの設定　　8.10　REST 対 gRPC　　　8.10.1　REST　　　8.10.2　gRPC　　　　　どちらのプロトコルを使うべきか　　8.11　モデルサーバーで予測　　　8.11.1　RESTで予測結果を取得　　　　8.11.1.1　URLの構造　　　　8.11.1.2　ペイロード　　　8.11.2　gRPCからTensorFlow Servingを使用　　　　　安全な接続　　　　8.11.2.1　分類と回帰モデルから予測を取得　　　　8.11.2.2　ペイロード　　8.12　TensorFlow Servingを用いたモデルのA/Bテスト　　8.13　モデルのメタデータのリクエスト　　　8.13.1　RESTによるリクエスト　　　8.13.2　gRPCによるリクエスト　　8.14　バッチ推論リクエスト　　8.15　バッチ予測の設定　　8.16　その他 TensorFlow Servingの最適化　　8.17　TensorFlow Servingの代替品　　　8.17.1　BentoML　　　8.17.2　Seldon　　　8.17.3　GraphPipe　　　8.17.4　Simple TensorFlow Serving　　　8.17.5　MLflow　　　8.17.6　Ray Serve　　8.18　クラウドへのデプロイ　　　8.18.1　ユースケース　　　8.18.2　GCPへのデプロイ　　　　8.18.2.1　モデルのデプロイ　　　　8.18.2.2　モデルの推論　　8.19　TFXパイプラインを用いたモデルデプロイ　　8.20　まとめ
　9章　TensorFlow Servingを使った高度なモデルデプロイ
　　9.1　デプロイサイクルの分離　　　9.1.1　ワークフローの概要　　　　9.1.1.1　AWS S3にあるプライベートなモデルへのアクセス　　　　9.1.1.2　GCPバケットにあるプライベートなモデルへのアクセス　　　9.1.2　リモートに置かれたモデル読み込みの最適化　　9.2　デプロイのためのモデル最適化　　　9.2.1　量子化　　　9.2.2　枝刈り　　　9.2.3　蒸留　　9.3　TensorFlow ServingでTensorRTを使う　　9.4　TFLite　　　9.4.1　TFLiteでモデルを最適化するステップ　　　　　TFLiteの最適化オプション　　　9.4.2　TensorFlow ServingでTFLiteモデルの提供　　　　　エッジデバイスへのモデルデプロイ　　9.5　TensorFlow Servingインスタンスの監視　　　9.5.1　Prometheusのセットアップ　　　9.5.2　TensorFlow Serving Configuration　　　　　Prometheus in Action　　9.6　TensorFlow ServingとKubernetesを用いたシンプルなスケーリング　　9.7　まとめ
　10章　TFXの高度な機能
　　10.1　パイプラインの高度なコンセプト　　　10.1.1　複数のモデルを同時に学習　　　10.1.2　TFLiteモデルのエクスポート　　　10.1.3　ウォームスタートなモデル学習　　10.2　ヒューマンインザループ　　　10.2.1　Slackコンポーネントのセットアップ　　　10.2.2　Slackコンポーネントの使い方　　10.3　カスタムコンポーネント　　　10.3.1　カスタムコンポーネントのユースケース　　　10.3.2　カスタムコンポーネントをゼロから構築　　　　10.3.2.1　コンポーネント仕様　　　　10.3.2.2　コンポーネントチャンネル　　　　10.3.2.3　コンポーネントエグゼキュータ　　　　10.3.2.4　コンポーネントドライバ　　　　10.3.2.5　カスタムコンポーネントの組み立て　　　　10.3.2.6　カスタムコンポーネントの使い方　　　　10.3.2.7　実装のレビュー　　　10.3.3　既存コンポーネントの再利用　　　　10.3.3.1　カスタムエグゼキュータの使い方　　10.4　まとめ
　11章　パイプライン Part 1: Apache BeamとApache Airflow
　　11.1　オーケストレーションツールの選択　　　11.1.1　Apache Beam　　　11.1.2　Apache Airflow　　　11.1.3　Kubeflow Pipelines　　　11.1.4　AI Platform上のKubeflow Pipelines　　11.2　インタラクティブTFXパイプラインを本番パイプラインに変換　　11.3　シンプルなインタラクティブパイプラインをBeamとAirflow向けに変換　　11.4　Apache Beam入門　　11.5　Apache BeamでTFXパイプラインのオーケストレーション　　11.6　Apache Airflow入門　　　11.6.1　インストールと初期設定　　　11.6.2　Airflowの基礎的な例　　　　11.6.2.1　プロジェクト固有の環境設定　　　　11.6.2.2　タスク定義　　　　11.6.2.3　タスクの依存関係　　　　11.6.2.4　すべてを統合　　11.7　Apache AirflowでTFXパイプラインをオーケストレーション　　　11.7.1　パイプラインの設定　　　11.7.2　パイプラインの実行　　11.8　まとめ
　12章　パイプライン Part 2: Kubeflow Pipelines
　　12.1　入門Kubeflow Pipelines　　　　　Kubeflow vs. Kubeflow Pipelines　　　　　Argoとは　　　12.1.1　インストールと初期設定　　　　　Kubernetesクラスタの作成　　　12.1.2　インストールしたKubeflow Pipelinesへのアクセス　　12.2　Kubeflow Pipelinesを使用したTFXパイプラインのオーケストレーション　　　12.2.1　パイプラインの設定　　　　　OpFunc関数　　　12.2.2　パイプラインの実行　　　12.2.3　Kubeflow Pipelinesの便利な機能　　　　12.2.3.1　失敗したパイプラインの再開　　　　12.2.3.2　定期的な実行　　　　12.2.3.3　パイプライン実行の共同作業とレビュー　　　　12.2.3.4　パイプライン系列の監査　　12.3　Google Cloud AI Platformベースのパイプライン　　　12.3.1　パイプラインの設定　　　12.3.2　TFXパイプラインのセットアップ　　　　12.3.2.1　データ交換のためにCloud Storageバケットを使う　　　　12.3.2.2　AI Platformジョブを用いたモデルの学習　　　　12.3.2.3　AI Platformのエンドポイントを介したモデルの提供　　　　12.3.2.4　Google Dataflowを用いたスケーリング　　　12.3.3　パイプラインの実行　　12.4　まとめ
　13章　フィードバックループ
　　13.1　明示的・暗黙的フィードバック　　　13.1.1　データフライホイール　　　13.1.2　実世界におけるフィードバックループ　　13.2　フィードバック収集のデザインパターン　　　13.2.1　ユーザーが予測の結果として何らかの行動をとる　　　13.2.2　ユーザーが予測の質を評価する　　　13.2.3　ユーザーが予測を修正する　　　13.2.4　クラウドソーシングによるアノテーション　　　13.2.5　専門家によるアノテーション　　　13.2.6　フィードバックの自動生成　　13.3　フィードバックループの追跡方法　　　13.3.1　明示的フィードバックの追跡　　　13.3.2　暗黙的フィードバックの追跡　　13.4　まとめ
　14章　機械学習のためのデータプライバシー
　　14.1　データプライバシーの問題　　　14.1.1　データプライバシーを気にする理由　　　14.1.2　プライバシーを高めるもっともシンプルな方法　　　14.1.3　秘密にしておく必要があるデータ　　14.2　差分プライバシー　　　14.2.1　局所的・大域的差分プライバシー　　　14.2.2　イプシロン、デルタ、そしてプライバシー予算　　　14.2.3　機械学習のための差分プライバシー　　14.3　入門TensorFlow Privacy　　　14.3.1　差分プライベートオプティマイザを用いた学習　　　14.3.2　イプシロンの計算　　14.4　Federated Learning　　　14.4.1　TensorFlowにおけるFederated Learning　　14.5　暗号化された機械学習　　　14.5.1　暗号化されたモデル学習　　　14.5.2　暗号化された予測を提供するために学習済みモデルを変換　　14.6　他のデータプライバシー手法　　14.7　まとめ
　15章　パイプラインの未来と次のステップ
　　15.1　モデルの実験追跡　　15.2　モデルのリリース管理の考え方　　15.3　将来的なパイプラインの能力　　15.4　TFXと他の機械学習フレームワーク　　15.5　機械学習モデルのテスト　　15.6　機械学習のためのCI/CD　　15.7　機械学習エンジニアリングのコミュニティ　　15.8　まとめ
　付録A　機械学習のためのインフラ入門
　　A.1　コンテナとは　　A.2　Docker入門　　　A.2.1　Dockerイメージ入門　　　A.2.2　初めてのDockerイメージビルド　　　A.2.3　Docker CLI入門　　A.3　Kubernetes入門　　　A.3.1　Kubernetesの用語とその定義　　　A.3.2　初めてのMinikubeとkubectl　　　A.3.3　Kubernetes CLIを使ったインタラクション　　　A.3.4　Kubernetesリソースの定義　　A.4　Kubernetesにアプリケーションをデプロイ
　付録B　Google Cloud上でKubernetesクラスタのセットアップ
　　B.1　始める前に　　B.2　Google Cloud上でKubernetes　　　B.2.1　Google Cloudプロジェクトの選択　　　B.2.2　Google Cloudプロジェクトのセットアップ　　　B.2.3　Kubernetesクラスタの作成　　　B.2.4　kubectlでKubernetesクラスタにアクセス　　　B.2.5　kubectlでKubernetesクラスタを使用　　B.3　Kubeflow Pipelines用に永続ボリュームのセットアップ
　付録C　Kubeflow Pipelinesを運用するためのTips
　　C.1　カスタムTFXイメージ　　C.2　永続ボリュームを介したデータ交換　　C.3　TFXコマンドラインインターフェイス　　　C.3.1　TFXと依存関係　　　C.3.2　TFXテンプレート　　　C.3.3　TFX CLIを用いたパイプラインの公開
　付録D　実際に運用されている機械学習パイプライン
　　D.1　Uber： Michelangelo　　D.2　Spotify： ML Platform　　D.3　Twitter： DeepBird-v2　　D.4　Netflix： Meson　　D.5　Airbnb： Bighead　　D.6　事例から学ぶ機械学習パイプライン構築のポイント
　著者紹介
　奥付

Content preview from 入門機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化

5章データ前処理

機械学習モデルの学習に使用するデータは、多くの場合、モデルに入力できない形式で与えられます。たとえば、サンプルプロジェクトでは、モデルの学習に使用したい特徴は、「Yes」と「No」のタグとして与えられていますが、この形式ではモデルに入力できません。モデルには、これらを数値表現（「1」や「0」など）として与える必要があります。そこで本章では、特徴を数値表現に変換して、モデルで学習できるようにする方法を説明します。

本章では、整合性のある前処理という話題を中心に説明をします。図5-1で示すように、前処理は「4章データ検証」で説明したデータ検証のあとに行われます。データ前処理用のTFXコンポーネントであるTensorFlow Transform（TFT）を使用すると、前処理ステップをTensorFlowグラフとして作成できます。以降の節では、この方法が優れている理由と使うべきタイミング、および前処理ステップをエクスポートする方法について説明します。「6章モデルの学習」では、前処理されたデータセットと保存された変換グラフを使用して、機械学習モデルの学習とエクスポートを行います。

図5-1　機械学習パイプラインにおけるデータ前処理

前処理をTensorFlowのオペレーションを使って書くのは、データサイエンティストにとって、敷居が高すぎると感じる場合があります。というのも、この方法はPythonのpandasやnumpyを使って前処理を書くのとは違った実装が求められるからです。そのため、実験段階ではTFTの使用は推奨していません。ただ、以降の節で説明するように、機械学習モデルを本番環境へ導入するときに、前処理をTensorFlowのオペレーションに変換すると、「 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

Publisher Resources

ISBN: 9784873119519Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

入門機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化

by Hannes Hapke, Catherine Nelson, 中山光樹

5章データ前処理

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.