book

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

March 2025

Intermediate to advanced

462 pages

7h 19m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
多くの似たような決断データサイエンティストの役割スクラップ環境フルスタック・クラウド・データサイエンティストコラボレーションベストプラクティスシンプルなソリューションから複雑なソリューションまでクラウド・コンピューティングサーバーレス確率的決断確率的アプローチ確率密度関数累積分布関数選択クラウドを選ぶ参考書ではないコードを使い始めるGoogle Cloudにおけるデータサイエンスのためのアジャイルアーキテクチャアジャイルアーキテクチャとは何か？ノーコード、ローコードマネージド・サービスを利用する概要推奨リソース
航空会社の定時運航データ知識因果関係トレーニング・サーブ・スキューデータをダウンロードするハブアンドスポーク・アーキテクチャデータセット・フィールドコンピュートとストレージの分離規模拡大シャード化されたデータでスケールアウトするデータ・イン・プレイスでスケールアウトするデータを取り込むウェブフォームをリバースエンジニアリングするデータセットダウンロード探査と清掃Google Cloud StorageにデータをアップロードするGoogle BigQueryにデータをロードするサーバーレス列型データベースの利点クラウドストレージでのステージングアクセス・コントロールCSVファイルを取り込むパーティショニング毎月のダウンロードをスケジュールするPythonでインジェストするクラウドランクラウドランの安全性デプロイしてCloud Runを起動するクラウドランをスケジューリングする概要コード・ブレーク推奨リソース
ダッシュボードでモデルを説明するなぜ最初にダッシュボードを作るのか？正確さ、誠実さ、優れたデザインCloud SQLにデータをロードするGoogle Cloud SQLインスタンスの作成データテーブルを作成するデータベースと対話するBigQueryを使ったクエリスキーマ探索プレビューを使用するテーブル・エクスプローラーを使うBigQueryビューの作成最初のモデルを作るコンティンジェンシー・テーブル閾値の最適化ダッシュボードを構築するデータスタジオを使い始めるチャートの作成エンドユーザのコントロールを追加する円グラフで比率を示す分割表の説明現代のビジネス・インテリジェンスデジタル化自然言語クエリ連結シート概要推奨リソース
イベント・フィードをデザインする変革が必要アーキテクチャ空港情報を入手するデータの共有時間補正Apache Beam/クラウドデータフロー空港データを解析するタイムゾーン情報を追加する時刻をUTCに変換する日付を修正するイベントの作成クラウドへの読み取りと書き込みクラウドでパイプラインを実行するイベントストリームをCloud Pub/Subにパブリッシュするスピードアップ係数レコードを発行するトピック数は？レコードを反復するイベントのバッチを作るイベントのバッチを公開するリアルタイム・ストリーム処理データフローにおけるストリーミングパイプラインをウィンドウ表示するストリーミング・アグリゲーションイベントのタイムスタンプを使うストリーム処理を実行するBigQueryでストリーミングデータを分析するリアルタイム・ダッシュボード概要推奨リソース
探索的データ分析SQLで探求するクエリの説明を読み取るバーテックスAIワークベンチにおける探索的データ分析Jupyterノートブックノートブックの作成JupyterコマンドパッケージのインストールGoogle Cloud向けJupyterマジック到着の遅れを探る基本統計分布をプロットする品質管理到着の遅れは出発の遅れを条件とするモデルを評価するランダムシャッフリング日付による分割トレーニングとテスト概要推奨リソース
MapReduceとHadoopエコシステムMapReduceの仕組みApache HadoopGoogle Cloud Dataprocより高度なツールの必要性クラスターではなく雇用ソフトウェアのプリインストールSpark SQLを使った量子化クラウドデータプロック上のJupyterLabBigQueryを使用した独立性チェックJupyterLabのSpark SQLヒストグラム均等化ベイズ分類各ビンのベイズモデルを評価するクラスタのサイズを動的に変更する単一閾値モデルとの比較オーケストレーションSparkの仕事に応募するワークフローテンプレートクラウド・コンポーザーオートスケーリングサーバーレス・スパーク概要推奨リソース
ロジスティック回帰ロジスティック回帰の仕組みSpark MLライブラリSparkマシンラーニングを始めようSpark ロジスティック回帰トレーニングデータセットを作成するモデルをトレーニングするモデルを使って予測するモデルを評価するフィーチャー・エンジニアリング実験的フレームワークフィーチャー・セレクションフィーチャー変換フィーチャー・クリエーションカテゴリー変数反復可能、リアルタイム概要推奨リソース
ロジスティック回帰プリプリット・データモデルを疑うモデルを評価するスケールとシンプルさ非線形マシンラーニングXGBoostハイパーパラメーターのチューニングバーテックスAI AutoMLテーブルタイムウィンドウ機能タクシーアウトタイム複利の遅れ因果関係時間の特徴出発時間トランスフォーム条項カテゴリー変数フィーチャー・クロス概要推奨リソース
より複雑なモデルへBigQueryデータをTensorFlow用に準備するTensorFlowにデータを読み取るKerasのトレーニングと評価モデル機能特徴インプットKerasモデルをトレーニングする保存とエクスポートディープ・ニューラル・ネットワークKerasのワイド＆ディープ・モデル航空路を代表するバケットフィーチャー・クロッシングワイド＆ディープクラシファイア学習済みTensorFlowモデルをVertex AIにデプロイする概念モデルをアップロードするエンドポイントの作成モデルをエンドポイントにデプロイするデプロイされたモデルを呼び出す概要推奨リソース

Pythonを使った開発とデプロイmodel.pyを書くトレーニング・パイプラインの作成事前定義された分割オートエムエルハイパーパラメーターのチューニングモデルをパラメータ化するトレーニングランを短縮するトレーニング中のメトリックハイパーパラメータ・チューニング・パイプライン完成までの最高の試練モデルの説明解説メタデータを設定するモデルの作成とデプロイ説明を受ける概要推奨リソース
時間平均Apache BeamとCloud Dataflow読み取りと書き込みタイムウィンドウマシン学習トレーニング機械学習データセットモデルをトレーニングするストリーミング予測トランスフォームを再利用する入出力モデルを呼び出すエンドポイントを再利用するバッチ予想ストリーミング・パイプラインBigQueryに書き込むストリーミング・パイプラインを実行する遅れているレコードと注文外のレコードストリーミング・シンクの可能性概要推奨リソース
4年間のデータデータセットを作成するトレーニング・モデル評価概要推奨リソース
機密情報の取り扱いカラム内の機密データ自然言語データセットにおける機密データフリーフォームの非構造化データに含まれる機密データ機密データを複数の分野で組み合わせる非構造化コンテンツに含まれる機密データ機密データの保護機密データを削除する機密データをマスクする機密データを粗くするガバナンス・ポリシーを確立する

Content preview from Google Cloud Platform 上でのデータサイエンス、第2版

第10章. バーテックスAIでMLOpsの準備をする

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

第9章では、TensorFlowモデルをJupyterノートブックで開発した。モデルをトレーニングし、エンドポイントにデプロイし、ノートブック環境から予測値を得ることができた。開発中はこれでうまくいったが、スケーラブルなワークフローではない。

JupyterノートブックでトレーニングしたTensorFlowモデルをVertex AIにデプロイしても、数百のモデルや大規模なチームにはスケールしない。再トレーニングは難しいだろう。なぜなら、運用チームは、実に不格好で合計が最小でないものの上に、運用と監視とスケジューリングのすべてをセットアップしなければならないからだ。

機械学習モデルを本番稼動させるためには、以下の要件を満たす必要がある：

モデルはバージョン管理下にあるべきである。gitのようなソースコード管理システムは、テキストとバイナリが混ざったファイル（.ipynbファイルなど）よりも、テキストファイル（.pyファイルなど）の方がずっとうまくいく。
データセットの作成からトレーニング、デプロイまでのプロセス全体は、コードによって駆動されなければならない。これは、GitHubアクションやGitLab継続的インテグレーションを使えば、新しく変更されたコードがチェックインされるたびに、トレーニングの実行を自動的に再トリガーすることが簡単にできるようにするためだ。
再トレーニングは、Cloud Storageバケットへの新しいデータの到着など、コード以外の変化でトリガーできるように、プロセス全体は単一エントリポイントから起動できるようにする。
モデルやエンドポイントのパフォーマンスをモニターし、モデルコードを修正することなく、発生した問題のサブセットを修正するための対策を講じることは容易であるべきだ。例えば、GPUが飽和しつつある場合、トレーニングやサービングのためにリソースを追加することは容易であるべきだ。モデルを継続的に評価し、入力特徴の分布が変化したり、評価メトリックが特定の閾値を下回ったりした場合は、モデルの再トレーニングをトリガーできるようにすべきである。

これらの基準を合わせてMLOpsと呼ぶ。一般化すればGoogle Cloud、特にVertex AIは、多くのMLOps機能を提供している。しかし、これらの内蔵機能を活用するためには、モデルコードとオペレーションコードを明確に分離し、ノートブックではなくPythonですべてを表現した方が良い。

Pythonを使った開発とデプロイ

Jupyterノートブックは開発には最適だが、Vertex AIがそれを可能にしてくれるとはいえ、これらのノートブックを本番環境に直接置くことは強くお勧めしない。

私がお勧めするのは、初期化したプロトタイピング・モデルのコードをPythonファイルに変換し、その中ですべての開発を続けることだ。Jupyterノートブックは捨てる。Pythonファイルはあなたのコードリポジトリにあり、今後維持されるコードベースになる。

本書のコードリポジトリにあるmodel.pyと train_on_vertexai.pyのファイル内のコードを見て、それらに従う。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341635968Supplemental Content

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

第10章. バーテックスAIでMLOpsの準備をする

Pythonを使った開発とデプロイ

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

第10章. バーテックスAIでMLOpsの準備をする

Pythonを使った開発とデプロイ

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.