book

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

March 2025

Intermediate to advanced

462 pages

7h 19m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
多くの似たような決断データサイエンティストの役割スクラップ環境フルスタック・クラウド・データサイエンティストコラボレーションベストプラクティスシンプルなソリューションから複雑なソリューションまでクラウド・コンピューティングサーバーレス確率的決断確率的アプローチ確率密度関数累積分布関数選択クラウドを選ぶ参考書ではないコードを使い始めるGoogle Cloudにおけるデータサイエンスのためのアジャイルアーキテクチャアジャイルアーキテクチャとは何か？ノーコード、ローコードマネージド・サービスを利用する概要推奨リソース
航空会社の定時運航データ知識因果関係トレーニング・サーブ・スキューデータをダウンロードするハブアンドスポーク・アーキテクチャデータセット・フィールドコンピュートとストレージの分離規模拡大シャード化されたデータでスケールアウトするデータ・イン・プレイスでスケールアウトするデータを取り込むウェブフォームをリバースエンジニアリングするデータセットダウンロード探査と清掃Google Cloud StorageにデータをアップロードするGoogle BigQueryにデータをロードするサーバーレス列型データベースの利点クラウドストレージでのステージングアクセス・コントロールCSVファイルを取り込むパーティショニング毎月のダウンロードをスケジュールするPythonでインジェストするクラウドランクラウドランの安全性デプロイしてCloud Runを起動するクラウドランをスケジューリングする概要コード・ブレーク推奨リソース
ダッシュボードでモデルを説明するなぜ最初にダッシュボードを作るのか？正確さ、誠実さ、優れたデザインCloud SQLにデータをロードするGoogle Cloud SQLインスタンスの作成データテーブルを作成するデータベースと対話するBigQueryを使ったクエリスキーマ探索プレビューを使用するテーブル・エクスプローラーを使うBigQueryビューの作成最初のモデルを作るコンティンジェンシー・テーブル閾値の最適化ダッシュボードを構築するデータスタジオを使い始めるチャートの作成エンドユーザのコントロールを追加する円グラフで比率を示す分割表の説明現代のビジネス・インテリジェンスデジタル化自然言語クエリ連結シート概要推奨リソース
イベント・フィードをデザインする変革が必要アーキテクチャ空港情報を入手するデータの共有時間補正Apache Beam/クラウドデータフロー空港データを解析するタイムゾーン情報を追加する時刻をUTCに変換する日付を修正するイベントの作成クラウドへの読み取りと書き込みクラウドでパイプラインを実行するイベントストリームをCloud Pub/Subにパブリッシュするスピードアップ係数レコードを発行するトピック数は？レコードを反復するイベントのバッチを作るイベントのバッチを公開するリアルタイム・ストリーム処理データフローにおけるストリーミングパイプラインをウィンドウ表示するストリーミング・アグリゲーションイベントのタイムスタンプを使うストリーム処理を実行するBigQueryでストリーミングデータを分析するリアルタイム・ダッシュボード概要推奨リソース
探索的データ分析SQLで探求するクエリの説明を読み取るバーテックスAIワークベンチにおける探索的データ分析Jupyterノートブックノートブックの作成JupyterコマンドパッケージのインストールGoogle Cloud向けJupyterマジック到着の遅れを探る基本統計分布をプロットする品質管理到着の遅れは出発の遅れを条件とするモデルを評価するランダムシャッフリング日付による分割トレーニングとテスト概要推奨リソース
MapReduceとHadoopエコシステムMapReduceの仕組みApache HadoopGoogle Cloud Dataprocより高度なツールの必要性クラスターではなく雇用ソフトウェアのプリインストールSpark SQLを使った量子化クラウドデータプロック上のJupyterLabBigQueryを使用した独立性チェックJupyterLabのSpark SQLヒストグラム均等化ベイズ分類各ビンのベイズモデルを評価するクラスタのサイズを動的に変更する単一閾値モデルとの比較オーケストレーションSparkの仕事に応募するワークフローテンプレートクラウド・コンポーザーオートスケーリングサーバーレス・スパーク概要推奨リソース
ロジスティック回帰ロジスティック回帰の仕組みSpark MLライブラリSparkマシンラーニングを始めようSpark ロジスティック回帰トレーニングデータセットを作成するモデルをトレーニングするモデルを使って予測するモデルを評価するフィーチャー・エンジニアリング実験的フレームワークフィーチャー・セレクションフィーチャー変換フィーチャー・クリエーションカテゴリー変数反復可能、リアルタイム概要推奨リソース
ロジスティック回帰プリプリット・データモデルを疑うモデルを評価するスケールとシンプルさ非線形マシンラーニングXGBoostハイパーパラメーターのチューニングバーテックスAI AutoMLテーブルタイムウィンドウ機能タクシーアウトタイム複利の遅れ因果関係時間の特徴出発時間トランスフォーム条項カテゴリー変数フィーチャー・クロス概要推奨リソース
より複雑なモデルへBigQueryデータをTensorFlow用に準備するTensorFlowにデータを読み取るKerasのトレーニングと評価モデル機能特徴インプットKerasモデルをトレーニングする保存とエクスポートディープ・ニューラル・ネットワークKerasのワイド＆ディープ・モデル航空路を代表するバケットフィーチャー・クロッシングワイド＆ディープクラシファイア学習済みTensorFlowモデルをVertex AIにデプロイする概念モデルをアップロードするエンドポイントの作成モデルをエンドポイントにデプロイするデプロイされたモデルを呼び出す概要推奨リソース

Pythonを使った開発とデプロイmodel.pyを書くトレーニング・パイプラインの作成事前定義された分割オートエムエルハイパーパラメーターのチューニングモデルをパラメータ化するトレーニングランを短縮するトレーニング中のメトリックハイパーパラメータ・チューニング・パイプライン完成までの最高の試練モデルの説明解説メタデータを設定するモデルの作成とデプロイ説明を受ける概要推奨リソース
時間平均Apache BeamとCloud Dataflow読み取りと書き込みタイムウィンドウマシン学習トレーニング機械学習データセットモデルをトレーニングするストリーミング予測トランスフォームを再利用する入出力モデルを呼び出すエンドポイントを再利用するバッチ予想ストリーミング・パイプラインBigQueryに書き込むストリーミング・パイプラインを実行する遅れているレコードと注文外のレコードストリーミング・シンクの可能性概要推奨リソース
4年間のデータデータセットを作成するトレーニング・モデル評価概要推奨リソース
機密情報の取り扱いカラム内の機密データ自然言語データセットにおける機密データフリーフォームの非構造化データに含まれる機密データ機密データを複数の分野で組み合わせる非構造化コンテンツに含まれる機密データ機密データの保護機密データを削除する機密データをマスクする機密データを粗くするガバナンス・ポリシーを確立する

Content preview from Google Cloud Platform 上でのデータサイエンス、第2版

第6章. Cloud上のApache Sparkによるベイズ分類器

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

管理するクラスタがないBigQueryでクエリを実行することに慣れてしまったので、Hadoopクラスタの設定と管理に戻るのが怖い。しかし、クラウド上のデータサイエンスのツアーを約束したし、多くの企業でHadoopは重要な役割を果たしている。

この章では、フライトの到着遅延を予測するベイズモデルを作成することで、データサイエンスの問題の次の段階に取り組む。BigQueryとSpark SQLを含む統合ワークフローを通してこれを行う。

この章のコード・スニペットはすべて、この本のGitHubリポジトリの06_dataprocフォルダにある。この章で説明されているステップの実行方法については、そのディレクトリのREADME.mdファイルを参照のこと。

MapReduceとHadoopエコシステム

MapReduceは、Jeff DeanとSanjay Ghemawatによる論文で、マシンのクラスタ上で大規模データセットを処理する方法として説明された。キーと値のペアを処理して中間的なキーと値のペアを生成するmap 関数と、同じキーに関連するすべての中間値をマージするreduce 関数である。柔軟で一般化されたフレームワークは、コモディティマシンのクラスタ上でこのMapReduceモデルに従って書かれたプログラムを実行することができる。このようなMapReduceフレームワークは、分散システムアプリケーションを書くことを難しくしている細部の多くを引き受けてくれる。例えば、フレームワークは入力データのパーティション分割を適切に行い、マシンのセット全体でプログラムを実行するスケジュールを立て、ジョブやマシンの障害を処理する。

MapReduceの仕組み

大規模なデータセットがあり、そのデータセットに対して単語の出現頻度を計算したいとする。MapReduce以前は、これは非常に難しい問題だった。一つのアプローチは、スケールアップすることだろう。つまり、非常に大きくて強力なマシンを手に入れることだ。¹このマシンは現在の単語頻度表をメモリに保持し、文書内で単語が出現するたびに、この単語頻度表を更新する。これを擬似コードで示す：

wordcount(Document[] docs):
   wordfrequency = {}
   for each document d in docs:
      for each word w in d:
           wordfrequency[w] += 1
   return wordfrequency

各スレッドに別々の文書を処理させ、スレッド間で単語頻度表を共有し、スレッドセーフな方法でこれを更新することで、マルチスレッドソリューションにすることができる。しかし、ある時点で、1台のマシンの能力を超えるデータセットに遭遇するだろう。その時点で、文書をマシンのクラスタに分割してスケールアウトしたくなるだろう。そして、クラスター上の各マシンは、ドキュメントコレクション全体の一部を処理する。プログラマはmap とreduce という2つのメソッドを実装する：

map(String docname, String content): for each word w in content: emitIntermediate(w, 1) reduce(String word, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341635968Supplemental Content

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

第6章. Cloud上のApache Sparkによるベイズ分類器

MapReduceとHadoopエコシステム

MapReduceの仕組み

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

第6章. Cloud上のApache Sparkによるベイズ分類器

MapReduceとHadoopエコシステム

MapReduceの仕組み

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.