book

データおよび機械学習プラットフォームのアーキテクト

Name: データおよび機械学習プラットフォームのアーキテクト
ISBN: 9798341624719

by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner

March 2025

Beginner to intermediate

362 pages

5h 20m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
なぜクラウドデータプラットフォームが必要なのか？この本は誰のためのものか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
1.データプラットフォームの近代化：入門的概要
データのライフサイクル知恵への旅水道管の例え収集する店舗プロセス／トランスフォーム分析／視覚化する起動する従来のアプローチの限界アンチパターンETLを通じてサイロを破壊するアンチパターンコントロールの集中化アンチパターンデータマートとHadoop統合分析プラットフォームの作成オンプレミスからクラウドへデータマートとデータレイクの欠点DWHとデータレイクの融合ハイブリッド・クラウドハイブリッドが必要な理由ハイブリッド・クラウドの課題ハイブリッドが機能する理由エッジ・コンピューティングAIの応用マシンラーニングMLの用途なぜAIにCloudなのか？クラウド・インフラ民主化リアルタイムMLOpsコア・プリンシプル概要
2.データでイノベーションを起こす戦略的ステップ
ステップ1：戦略と計画戦略的目標ステークホルダーを特定するチェンジ・マネジメントステップ2：クラウドアプローチの採用による総所有コストの削減クラウドのコストが低い理由貯蓄額はいくらか？クラウドはどんな時に役立つのか？ステップ3：サイロを壊すデータ・アクセスを統一するストレージの選択セマンティック層ステップ4: 状況に応じた意思決定を迅速に行うバッチからストリームへ文脈情報コスト管理ステップ5：パッケージ化されたAIソリューションで飛躍する予測分析非構造化データを理解し、生成するパーソナライゼーションパッケージ・ソリューションステップ6：AI主導のワークフローを運用する自動化とアシストの適切なバランスを見極めるデータ文化の構築データサイエンスチームを編成するステップ7：データの製品管理プロダクト・マネジメントの原則をデータに適用する1.企業内のデータフローのマッピングを理解し、維持する。2.主要メトリックを特定する3.合意された基準、コミットされたロードマップ、ビジョナリー・バックログ4.今いる顧客のために構築する5.チェンジ・マネジメントの負担を転嫁しない6.顧客と面談してデータ・ニーズを探る7.ホワイトボードとプロトタイプを多用する8.すぐに使うものだけを作る9.共通の事業体とKPIを標準化する10.データプラットフォームにセルフサービス機能を提供する。概要
3.データチームのためのデザイン
データ処理組織を分類するデータ分析主導の組織構想ペルソナ技術的枠組みデータエンジニアリング主導の組織構想ペルソナ技術的枠組みデータ・サイエンス主導の組織構想ペルソナ技術的枠組み概要
4.マイグレーション・フレームワーク
データワークフローの近代化ホリスティックな視点ワークフローを近代化するワークフローそのものを変革する4段階の移行フレームワーク準備と発見評価と計画実行する最適化するソリューション全体のコストを見積もる既存インフラの監査資料請求/提案書および見積書概念実証／最小利用可能製品セキュリティとデータガバナンスのセットアップフレームワーク成果物データのライフサイクルにわたるガバナンススキーマ、パイプライン、データ移行スキーマ移行パイプラインの移行データ移行マイグレーション・ステージ概要
5.データレイクのアーキテクト
データレイクとクラウド-完璧な結婚オンプレミス・データレイクの課題クラウドデータレイクの利点設計と実装バッチとストリームデータカタログHadoopの展望Cloud Data Lakeリファレンスアーキテクチャデータレイクを統合する：真のスーパーパワー湖を拡張するAPIApache Iceberg、Apache Hudi、Delta Lakeによるデータレイクの進化ノートブックによるインタラクティブな分析データ処理と報告の民主化データへの信頼を築くデータ収集は依然としてITの問題であるデータレイクにおけるML生データでのトレーニングデータレイクで予測する概要
6.エンタープライズ・データウェアハウスでイノベーションを起こす
最新のデータプラットフォーム組織の目標技術的課題技術動向とツールハブアンドスポーク・アーキテクチャデータ・インジェストビジネス・インテリジェンス変貌組織構造データサイエンティストを可能にするDWHクエリ・インターフェイスストレージAPIデータを動かさずにMLを構築する概要
7.レイクハウスに集結する
ユニークなアーキテクチャの必要性ユーザ・ペルソナアンチパターン切断されたシステムアンチパターン重複データコンバージド・アーキテクチャつの形態クラウドストレージのレイクハウスSQLファーストのレイクハウスコンバージェンスの利点概要
8.ストリーミングのアーキテクチャ
ストリーミングの価値業界別使用例ストリーミングの使用例ストリーミング・インジェストストリーミングETLストリーミングELTストリーミング・インサートエッジデバイス（IoT）からのストリーミングストリーミング・シンクリアルタイム・ダッシュボードライブクエリいくつかのビューを具体化するストリーム分析時系列分析クリックストリーム分析異常検出レジリエンス・ストリーミングMLによる継続的インテリジェンスストリーミング・データのトレーニング・モデルストリーミングML推論自動化されたアクション概要
9.ハイブリッドとエッジを使ってデータプラットフォームを拡張する
なぜマルチクラウドなのか？単一クラウドはよりシンプルでコスト効率に優れているマルチクラウドは避けられないマルチクラウドは戦略的かもしれないマルチクラウドのアーキテクチャパターン一枚ガラス一度書けば、どこでも実行できるオンプレミスからクラウドへの飛躍オンプレミスからクラウドへのパススルーストリーミングによるデータ統合マルチクラウドの採用フレームワーク時間スケール目標とするマルチクラウドアーキテクチャを定義するなぜエッジ・コンピューティングなのか？帯域幅、遅延、パッチ接続使用例利点課題エッジコンピューティングのアーキテクチャパターンスマートデバイススマートゲートウェイMLアクティベーションエッジコンピューティングの導入初期化の背景プロジェクト最終的な成果と次のステップ概要

10.AIアプリケーション・アーキテクチャ
これはAI/MLの問題なのか？AIのサブフィールド生成AIMLに適した問題購入か、適応か、それとも建設か？データに関する考察いつ買うべきか何が買えるのか？適応の仕組みAIアーキテクチャ非構造化データを理解する非構造化データを生成する結果を予測する予測値異常検出パーソナライゼーションオートメーション責任あるAIAIの原則MLの公平性説明可能性概要
11.MLプラットフォームのアーキテクト
ML活動MLモデルの開発ラベリング環境開発環境ユーザ環境データの準備MLモデルのトレーニングMLモデルをデプロイするエンドポイントにデプロイするモデルを評価するハイブリッドとマルチクラウドトレーニング・サーブ・スキューオートメーショントレーニングとデプロイの自動化パイプラインによるオーケストレーション継続的な評価とトレーニングMLフレームワークの選択チーム・スキルタスクに関する考察ユーザ中心概要
12.データプラットフォームの近代化：モデルケース
新時代の新技術変革の必要性技術だけの問題ではない旅の始まり現在の環境ターゲット環境PoCのユースケースクラウドベンダが提案したRFPレスポンスターゲット環境移民に関するアプローチRFP評価プロセスPoCの範囲PoCの実行最終決断灌漑概要
インデックス
著者について

Content preview from データおよび機械学習プラットフォームのアーキテクト

第7章. レイクハウスに集結する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

データレイクのパラダイムに従うか、DWHのパラダイムに従うかだ。どちらのアプローチにも長所と短所があるが、問題は、両方のテクノロジーを共存させて収束したアーキテクチャを実現することは可能なのかということだ。本章ではこのトピックについて、この考え方の簡単な動機付けから始め、レイクハウスアーキテクチャとして知られる収束型アーキテクチャの2つの大まかなバリエーションを分析し、そのどちらを選ぶべきかを決める手助けをする。

レイクハウスの概念は、構造化データ、半構造化データ、非構造化データをより柔軟かつスケーラブルに、大規模にストア・分析できるため、ますます普及している。レイクハウスは、構造化データと非構造化データのライフサイクル全体を扱うことができ、前の2章で学んだデータレイクとDWHアプローチの長所を統率された方法で組み合わせることができる。本章の最後では、レイクハウスアーキテクチャに向けて進化する方法を説明する。

ユニークなアーキテクチャの必要性

データレイクとDWHは、異なるユーザのニーズを満たすために登場した。両方のタイプのユーザを持つ組織は、魅力的でない選択を迫られている。

ユーザ・ペルソナ

前の章で学んだように、データレイクとDWHの主な違いは、取り込むことができるデータの種類と、未処理の（生の）データを共通の場所に陸揚げする機能に関連している。したがって、これら2つのパラダイムの典型的なユーザは異なる。

従来のDWH ユーザはBIアナリストであり、よりビジネスに近く、データから洞察を得ることに重点を置いている。データは従来、データアナリストの要求に基づいてETLツールによって準備される。これらのユーザは通常、質問に答えるためにデータを使用する。彼らはSQLに精通している傾向がある。

データレイクユーザには、アナリストの他に、データエンジニアやデータサイエンティストがいる。彼らは生データにより近く、データを探索し、マイニングするツールと機能を持つ。彼らはデータを変換してビジネスがアクセスできるようにするだけでなく（つまりDWHに転送できるデータ）、それを実験し、MLモデルの訓練やAI処理に使用する。このようなユーザは、データの中から答えを発見するだけでなく、ビジネスに関連する質問を見つけ、他のユーザにも役立つようにデータを準備する。彼らはPython、Java、Scalaなどのコーディング言語に習熟している傾向がある。

アンチパターン切断されたシステム

このようにニーズが異なる結果、、DWHとデータレイクを別々のIT部門やチームが管理しているケースがよく見られる。しかし、このような分割アプローチには機会コストがかかる。演算子はビジネス洞察に集中するよりも、運用面にリソースを費やしてしまう。そのため、主要なビジネスドライバーや、競争優位を獲得するための課題にリソースを割くことができない。

さらに、データから実用的な洞察を提供するという同じ最終目標を持つ2つのシステムを別々に管理することは、データ品質と一貫性の問題を引き起こす可能性がある。片方のシステムから得たデータをもう片方のシステムから得たデータと一緒に使うためにデータを変換する余計な手間がかかるため、エンドユーザは完全に敬遠してしまうかもしれない。これはまた、、企業全体のデータ溜まりにつながる可能性がある。データ溜まりとは、個人のマシン上に保存されたデータセットのことで、セキュリティリスクとデータの非効率的な利用の両方を引き起こす。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341624719

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business