book

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

March 2025

Intermediate to advanced

462 pages

7h 19m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
多くの似たような決断データサイエンティストの役割スクラップ環境フルスタック・クラウド・データサイエンティストコラボレーションベストプラクティスシンプルなソリューションから複雑なソリューションまでクラウド・コンピューティングサーバーレス確率的決断確率的アプローチ確率密度関数累積分布関数選択クラウドを選ぶ参考書ではないコードを使い始めるGoogle Cloudにおけるデータサイエンスのためのアジャイルアーキテクチャアジャイルアーキテクチャとは何か？ノーコード、ローコードマネージド・サービスを利用する概要推奨リソース
航空会社の定時運航データ知識因果関係トレーニング・サーブ・スキューデータをダウンロードするハブアンドスポーク・アーキテクチャデータセット・フィールドコンピュートとストレージの分離規模拡大シャード化されたデータでスケールアウトするデータ・イン・プレイスでスケールアウトするデータを取り込むウェブフォームをリバースエンジニアリングするデータセットダウンロード探査と清掃Google Cloud StorageにデータをアップロードするGoogle BigQueryにデータをロードするサーバーレス列型データベースの利点クラウドストレージでのステージングアクセス・コントロールCSVファイルを取り込むパーティショニング毎月のダウンロードをスケジュールするPythonでインジェストするクラウドランクラウドランの安全性デプロイしてCloud Runを起動するクラウドランをスケジューリングする概要コード・ブレーク推奨リソース
ダッシュボードでモデルを説明するなぜ最初にダッシュボードを作るのか？正確さ、誠実さ、優れたデザインCloud SQLにデータをロードするGoogle Cloud SQLインスタンスの作成データテーブルを作成するデータベースと対話するBigQueryを使ったクエリスキーマ探索プレビューを使用するテーブル・エクスプローラーを使うBigQueryビューの作成最初のモデルを作るコンティンジェンシー・テーブル閾値の最適化ダッシュボードを構築するデータスタジオを使い始めるチャートの作成エンドユーザのコントロールを追加する円グラフで比率を示す分割表の説明現代のビジネス・インテリジェンスデジタル化自然言語クエリ連結シート概要推奨リソース
イベント・フィードをデザインする変革が必要アーキテクチャ空港情報を入手するデータの共有時間補正Apache Beam/クラウドデータフロー空港データを解析するタイムゾーン情報を追加する時刻をUTCに変換する日付を修正するイベントの作成クラウドへの読み取りと書き込みクラウドでパイプラインを実行するイベントストリームをCloud Pub/Subにパブリッシュするスピードアップ係数レコードを発行するトピック数は？レコードを反復するイベントのバッチを作るイベントのバッチを公開するリアルタイム・ストリーム処理データフローにおけるストリーミングパイプラインをウィンドウ表示するストリーミング・アグリゲーションイベントのタイムスタンプを使うストリーム処理を実行するBigQueryでストリーミングデータを分析するリアルタイム・ダッシュボード概要推奨リソース
探索的データ分析SQLで探求するクエリの説明を読み取るバーテックスAIワークベンチにおける探索的データ分析Jupyterノートブックノートブックの作成JupyterコマンドパッケージのインストールGoogle Cloud向けJupyterマジック到着の遅れを探る基本統計分布をプロットする品質管理到着の遅れは出発の遅れを条件とするモデルを評価するランダムシャッフリング日付による分割トレーニングとテスト概要推奨リソース
MapReduceとHadoopエコシステムMapReduceの仕組みApache HadoopGoogle Cloud Dataprocより高度なツールの必要性クラスターではなく雇用ソフトウェアのプリインストールSpark SQLを使った量子化クラウドデータプロック上のJupyterLabBigQueryを使用した独立性チェックJupyterLabのSpark SQLヒストグラム均等化ベイズ分類各ビンのベイズモデルを評価するクラスタのサイズを動的に変更する単一閾値モデルとの比較オーケストレーションSparkの仕事に応募するワークフローテンプレートクラウド・コンポーザーオートスケーリングサーバーレス・スパーク概要推奨リソース
ロジスティック回帰ロジスティック回帰の仕組みSpark MLライブラリSparkマシンラーニングを始めようSpark ロジスティック回帰トレーニングデータセットを作成するモデルをトレーニングするモデルを使って予測するモデルを評価するフィーチャー・エンジニアリング実験的フレームワークフィーチャー・セレクションフィーチャー変換フィーチャー・クリエーションカテゴリー変数反復可能、リアルタイム概要推奨リソース
ロジスティック回帰プリプリット・データモデルを疑うモデルを評価するスケールとシンプルさ非線形マシンラーニングXGBoostハイパーパラメーターのチューニングバーテックスAI AutoMLテーブルタイムウィンドウ機能タクシーアウトタイム複利の遅れ因果関係時間の特徴出発時間トランスフォーム条項カテゴリー変数フィーチャー・クロス概要推奨リソース
より複雑なモデルへBigQueryデータをTensorFlow用に準備するTensorFlowにデータを読み取るKerasのトレーニングと評価モデル機能特徴インプットKerasモデルをトレーニングする保存とエクスポートディープ・ニューラル・ネットワークKerasのワイド＆ディープ・モデル航空路を代表するバケットフィーチャー・クロッシングワイド＆ディープクラシファイア学習済みTensorFlowモデルをVertex AIにデプロイする概念モデルをアップロードするエンドポイントの作成モデルをエンドポイントにデプロイするデプロイされたモデルを呼び出す概要推奨リソース

Pythonを使った開発とデプロイmodel.pyを書くトレーニング・パイプラインの作成事前定義された分割オートエムエルハイパーパラメーターのチューニングモデルをパラメータ化するトレーニングランを短縮するトレーニング中のメトリックハイパーパラメータ・チューニング・パイプライン完成までの最高の試練モデルの説明解説メタデータを設定するモデルの作成とデプロイ説明を受ける概要推奨リソース
時間平均Apache BeamとCloud Dataflow読み取りと書き込みタイムウィンドウマシン学習トレーニング機械学習データセットモデルをトレーニングするストリーミング予測トランスフォームを再利用する入出力モデルを呼び出すエンドポイントを再利用するバッチ予想ストリーミング・パイプラインBigQueryに書き込むストリーミング・パイプラインを実行する遅れているレコードと注文外のレコードストリーミング・シンクの可能性概要推奨リソース
4年間のデータデータセットを作成するトレーニング・モデル評価概要推奨リソース
機密情報の取り扱いカラム内の機密データ自然言語データセットにおける機密データフリーフォームの非構造化データに含まれる機密データ機密データを複数の分野で組み合わせる非構造化コンテンツに含まれる機密データ機密データの保護機密データを削除する機密データをマスクする機密データを粗くするガバナンス・ポリシーを確立する

Content preview from Google Cloud Platform 上でのデータサイエンス、第2版

第11章. リアルタイムマシン学習のための時間窓機能

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

第8章では、出発空港でのタクシーアウト遅延の移動平均のような、タイムウィンドウ機能をモデルの入力として取り入れることを簡単に検討した。その結果、時間軸の特徴によってモデル誤差が減少することが発見された。しかし、（自分が乗っているフライトのことしか知らない）顧客がどのように正しい値を提供できるかは不明であった。そのため、我々は時間窓機能を削除することにした。この章では、Cloud DataflowとVertex AIを使用したリアルタイム・ストリーミング・マシン学習パイプラインを実装することで、この欠点に対処する。

この章のコード・スニペットはすべて、GitHubリポジトリの11_realtimeフォルダにある。この章で説明するステップのやり方は、そのディレクトリにあるREADME.mdファイルを参照のこと。

時間平均

使いたくても使えなかった時間帯別集計機能とは？フライトの到着時刻は、出発空港でのその特定の時間帯の平均タイムアウトに基づいてスケジュールされる。データセット全体を表示し、出発空港の名前をMLモデルに伝えているため、機械学習モデルはこの平均を非常に簡単に学習する。例えば、ニューヨークのJFK空港のピーク時には、1時間程度のタイムアウトはよくあることで、航空会社はフライトスケジュールを発表する際にそれを考慮する。私たちが心配すべきなのは、タイムアウト時間が平均を超える場合である。このような世界平均は、通常、モデルに組み込む必要はない（組み込んでも害はないが）。

一方、最近のフライトの時間平均を計算する必要がある場合もある。例えば、出発空港で経験される出発とタクシーアウトの平均遅延は、時間通りに到着する可能性が高いかどうかに影響を与えるという直感がある。これは、私たちが乗っている便がたまたま定刻に出発した場合でも同様である。遅延が発生している空港からの多くのフライトは、通常、天候やその他の理由による滑走路閉鎖に関連している。これは空域の混雑につながるため、天候による遅延が続く可能性があることと、滑走路の数が制限される可能性があることから、後続便も影響を受けることになる。世界平均のタイムアウトとは異なり、出発遅延の最近の平均はリアルタイムで計算する必要がある。過去のデータでは、航空機の出発時刻の1時間前から計算する。リアルタイムでは、この計算はストリーミング・データで行われる。