book

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

March 2025

Intermediate to advanced

462 pages

7h 19m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
多くの似たような決断データサイエンティストの役割スクラップ環境フルスタック・クラウド・データサイエンティストコラボレーションベストプラクティスシンプルなソリューションから複雑なソリューションまでクラウド・コンピューティングサーバーレス確率的決断確率的アプローチ確率密度関数累積分布関数選択クラウドを選ぶ参考書ではないコードを使い始めるGoogle Cloudにおけるデータサイエンスのためのアジャイルアーキテクチャアジャイルアーキテクチャとは何か？ノーコード、ローコードマネージド・サービスを利用する概要推奨リソース
航空会社の定時運航データ知識因果関係トレーニング・サーブ・スキューデータをダウンロードするハブアンドスポーク・アーキテクチャデータセット・フィールドコンピュートとストレージの分離規模拡大シャード化されたデータでスケールアウトするデータ・イン・プレイスでスケールアウトするデータを取り込むウェブフォームをリバースエンジニアリングするデータセットダウンロード探査と清掃Google Cloud StorageにデータをアップロードするGoogle BigQueryにデータをロードするサーバーレス列型データベースの利点クラウドストレージでのステージングアクセス・コントロールCSVファイルを取り込むパーティショニング毎月のダウンロードをスケジュールするPythonでインジェストするクラウドランクラウドランの安全性デプロイしてCloud Runを起動するクラウドランをスケジューリングする概要コード・ブレーク推奨リソース
ダッシュボードでモデルを説明するなぜ最初にダッシュボードを作るのか？正確さ、誠実さ、優れたデザインCloud SQLにデータをロードするGoogle Cloud SQLインスタンスの作成データテーブルを作成するデータベースと対話するBigQueryを使ったクエリスキーマ探索プレビューを使用するテーブル・エクスプローラーを使うBigQueryビューの作成最初のモデルを作るコンティンジェンシー・テーブル閾値の最適化ダッシュボードを構築するデータスタジオを使い始めるチャートの作成エンドユーザのコントロールを追加する円グラフで比率を示す分割表の説明現代のビジネス・インテリジェンスデジタル化自然言語クエリ連結シート概要推奨リソース
イベント・フィードをデザインする変革が必要アーキテクチャ空港情報を入手するデータの共有時間補正Apache Beam/クラウドデータフロー空港データを解析するタイムゾーン情報を追加する時刻をUTCに変換する日付を修正するイベントの作成クラウドへの読み取りと書き込みクラウドでパイプラインを実行するイベントストリームをCloud Pub/Subにパブリッシュするスピードアップ係数レコードを発行するトピック数は？レコードを反復するイベントのバッチを作るイベントのバッチを公開するリアルタイム・ストリーム処理データフローにおけるストリーミングパイプラインをウィンドウ表示するストリーミング・アグリゲーションイベントのタイムスタンプを使うストリーム処理を実行するBigQueryでストリーミングデータを分析するリアルタイム・ダッシュボード概要推奨リソース
探索的データ分析SQLで探求するクエリの説明を読み取るバーテックスAIワークベンチにおける探索的データ分析Jupyterノートブックノートブックの作成JupyterコマンドパッケージのインストールGoogle Cloud向けJupyterマジック到着の遅れを探る基本統計分布をプロットする品質管理到着の遅れは出発の遅れを条件とするモデルを評価するランダムシャッフリング日付による分割トレーニングとテスト概要推奨リソース
MapReduceとHadoopエコシステムMapReduceの仕組みApache HadoopGoogle Cloud Dataprocより高度なツールの必要性クラスターではなく雇用ソフトウェアのプリインストールSpark SQLを使った量子化クラウドデータプロック上のJupyterLabBigQueryを使用した独立性チェックJupyterLabのSpark SQLヒストグラム均等化ベイズ分類各ビンのベイズモデルを評価するクラスタのサイズを動的に変更する単一閾値モデルとの比較オーケストレーションSparkの仕事に応募するワークフローテンプレートクラウド・コンポーザーオートスケーリングサーバーレス・スパーク概要推奨リソース
ロジスティック回帰ロジスティック回帰の仕組みSpark MLライブラリSparkマシンラーニングを始めようSpark ロジスティック回帰トレーニングデータセットを作成するモデルをトレーニングするモデルを使って予測するモデルを評価するフィーチャー・エンジニアリング実験的フレームワークフィーチャー・セレクションフィーチャー変換フィーチャー・クリエーションカテゴリー変数反復可能、リアルタイム概要推奨リソース
ロジスティック回帰プリプリット・データモデルを疑うモデルを評価するスケールとシンプルさ非線形マシンラーニングXGBoostハイパーパラメーターのチューニングバーテックスAI AutoMLテーブルタイムウィンドウ機能タクシーアウトタイム複利の遅れ因果関係時間の特徴出発時間トランスフォーム条項カテゴリー変数フィーチャー・クロス概要推奨リソース
より複雑なモデルへBigQueryデータをTensorFlow用に準備するTensorFlowにデータを読み取るKerasのトレーニングと評価モデル機能特徴インプットKerasモデルをトレーニングする保存とエクスポートディープ・ニューラル・ネットワークKerasのワイド＆ディープ・モデル航空路を代表するバケットフィーチャー・クロッシングワイド＆ディープクラシファイア学習済みTensorFlowモデルをVertex AIにデプロイする概念モデルをアップロードするエンドポイントの作成モデルをエンドポイントにデプロイするデプロイされたモデルを呼び出す概要推奨リソース

Pythonを使った開発とデプロイmodel.pyを書くトレーニング・パイプラインの作成事前定義された分割オートエムエルハイパーパラメーターのチューニングモデルをパラメータ化するトレーニングランを短縮するトレーニング中のメトリックハイパーパラメータ・チューニング・パイプライン完成までの最高の試練モデルの説明解説メタデータを設定するモデルの作成とデプロイ説明を受ける概要推奨リソース
時間平均Apache BeamとCloud Dataflow読み取りと書き込みタイムウィンドウマシン学習トレーニング機械学習データセットモデルをトレーニングするストリーミング予測トランスフォームを再利用する入出力モデルを呼び出すエンドポイントを再利用するバッチ予想ストリーミング・パイプラインBigQueryに書き込むストリーミング・パイプラインを実行する遅れているレコードと注文外のレコードストリーミング・シンクの可能性概要推奨リソース
4年間のデータデータセットを作成するトレーニング・モデル評価概要推奨リソース
機密情報の取り扱いカラム内の機密データ自然言語データセットにおける機密データフリーフォームの非構造化データに含まれる機密データ機密データを複数の分野で組み合わせる非構造化コンテンツに含まれる機密データ機密データの保護機密データを削除する機密データをマスクする機密データを粗くするガバナンス・ポリシーを確立する

Content preview from Google Cloud Platform 上でのデータサイエンス、第2版

付録機械学習データセット内の機密データに関する考察

この付録の内容は、著者とBrad Sveeによって書かれ、Google Cloud PlatformのドキュメントWebサイトでソリューションペーパーとして公開された。

MLプログラムを開発する際、社内のデータアクセスとそのセキュリティのバランスを取ることが重要だ。機密データへのアクセスが制限されていても、MLのトレーニングの指針として生データセットに含まれる洞察が欲しい。この2つの目標を達成するためには、生データのサブセット、あるいは集約や難読化のテクニックを部分的に適用した後のデータセット全体でMLシステムを訓練するのが有効だ。

例えば、データエンジニアにMLモデルを学習させ、製品に関する顧客のフィードバックを評価させたいが、誰がフィードバックを提出したかは知られたくない。しかし、配送先住所や購入履歴などの情報は、MLモデルをトレーニングする上で決定的に重要である。データがデータエンジニアに提供された後、彼らはデータ探索の目的でクエリする必要があるので、利用可能にする前に機密データフィールドを保護することが重要である。この種のジレンマは、レコメンデーション・エンジンを含むMLモデルでもよく見られる。ユーザ固有の結果を返すモデルを作成するには、一般的にユーザ固有のデータにアクセスする必要がある。

幸いなことに、効果的なMLモデルをトレーニングしながら、データセットから機密データを取り除くテクニックがある。この記事では、機密情報を特定し保護するための戦略と、MLデータに関するセキュリティ上の懸念に対処するためのプロセスを紹介する。

機密情報の取り扱い

機密情報とは、あなたやあなたの顧問弁護士が、アクセス制限や暗号化などの追加的なセキュリティ対策で保護したいと考えるデータのことである。例えば、名前、Eメールアドレス、請求情報、データエンジニアや悪意のある行為者が間接的に機密情報を推測できるような情報は、機密情報とみなされることが多い。

HIPAAやPCI-DSSのような規格は、機密データを保護するためのベストプラクティスを規定すると同時に、顧客に機密データの取り扱い方法を知らせるものである。これらの認証により、顧客は情報のセキュリティについて十分な情報を得た上で意思決定を行うことができる。

MLデータセットにおけるセンシティブデータの取り扱いは、以下の理由により困難である：

ほとんどのロールベースのセキュリティは、所有権の概念を対象としている。つまり、ユーザは自分のデータを閲覧・編集することはできるが、自分のものではないデータにはアクセスできない。所有権の概念は、多くのユーザのデータの集合体であるMLデータセットでは崩れる。基本的に、データエンジニアは、データセットを効果的に使用するために、データセット全体への閲覧権限を付与される必要がある。
機密性の高いフィールドを暗号化したり、解像度を下げたりすることは、予防策としてよく使われるが、MLデータセットには必ずしも十分ではない。集約されたデータセット自体が、しばしば頻度分析攻撃によって暗号化を破る手段を提供する。
データセットからセンシティブなフィールドをランダムにトークン化、抑制、または削除すると、必要なデータが不明瞭になるため、効果的なMLモデルのトレーニングが劣化し、予測のパフォーマンスが低下する可能性がある。

組織はしばしば、セキュリティと実用性の適切なバランスを取るために、ツールやベストプラクティスのセットを開発する。MLデータセットの機密データを保護するために、以下の3つの目標に留意すること： ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341635968Supplemental Content

Google Cloud Platform 上でのデータサイエンス、第2版

by Valliappa Lakshmanan

付録機械学習データセット内の機密データに関する考察

機密情報の取り扱い

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

付録 機械学習データセット内の機密データに関する考察

機密情報の取り扱い

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

AWS Lambdaのプログラミング

詳解 Terraform 第3版 ―Infrastructure as Codeを実現する

セキュアで信頼性のあるシステム構築 ―Google SREが考える安全なシステムの設計、実装、保守

リーダーの作法 ―ささいなことをていねいに

Publisher Resources

付録機械学習データセット内の機密データに関する考察

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.