book

データおよび機械学習プラットフォームのアーキテクト

Name: データおよび機械学習プラットフォームのアーキテクト
ISBN: 9798341624719

by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner

March 2025

Beginner to intermediate

362 pages

5h 20m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
なぜクラウドデータプラットフォームが必要なのか？この本は誰のためのものか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
1.データプラットフォームの近代化：入門的概要
データのライフサイクル知恵への旅水道管の例え収集する店舗プロセス／トランスフォーム分析／視覚化する起動する従来のアプローチの限界アンチパターンETLを通じてサイロを破壊するアンチパターンコントロールの集中化アンチパターンデータマートとHadoop統合分析プラットフォームの作成オンプレミスからクラウドへデータマートとデータレイクの欠点DWHとデータレイクの融合ハイブリッド・クラウドハイブリッドが必要な理由ハイブリッド・クラウドの課題ハイブリッドが機能する理由エッジ・コンピューティングAIの応用マシンラーニングMLの用途なぜAIにCloudなのか？クラウド・インフラ民主化リアルタイムMLOpsコア・プリンシプル概要
2.データでイノベーションを起こす戦略的ステップ
ステップ1：戦略と計画戦略的目標ステークホルダーを特定するチェンジ・マネジメントステップ2：クラウドアプローチの採用による総所有コストの削減クラウドのコストが低い理由貯蓄額はいくらか？クラウドはどんな時に役立つのか？ステップ3：サイロを壊すデータ・アクセスを統一するストレージの選択セマンティック層ステップ4: 状況に応じた意思決定を迅速に行うバッチからストリームへ文脈情報コスト管理ステップ5：パッケージ化されたAIソリューションで飛躍する予測分析非構造化データを理解し、生成するパーソナライゼーションパッケージ・ソリューションステップ6：AI主導のワークフローを運用する自動化とアシストの適切なバランスを見極めるデータ文化の構築データサイエンスチームを編成するステップ7：データの製品管理プロダクト・マネジメントの原則をデータに適用する1.企業内のデータフローのマッピングを理解し、維持する。2.主要メトリックを特定する3.合意された基準、コミットされたロードマップ、ビジョナリー・バックログ4.今いる顧客のために構築する5.チェンジ・マネジメントの負担を転嫁しない6.顧客と面談してデータ・ニーズを探る7.ホワイトボードとプロトタイプを多用する8.すぐに使うものだけを作る9.共通の事業体とKPIを標準化する10.データプラットフォームにセルフサービス機能を提供する。概要
3.データチームのためのデザイン
データ処理組織を分類するデータ分析主導の組織構想ペルソナ技術的枠組みデータエンジニアリング主導の組織構想ペルソナ技術的枠組みデータ・サイエンス主導の組織構想ペルソナ技術的枠組み概要
4.マイグレーション・フレームワーク
データワークフローの近代化ホリスティックな視点ワークフローを近代化するワークフローそのものを変革する4段階の移行フレームワーク準備と発見評価と計画実行する最適化するソリューション全体のコストを見積もる既存インフラの監査資料請求/提案書および見積書概念実証／最小利用可能製品セキュリティとデータガバナンスのセットアップフレームワーク成果物データのライフサイクルにわたるガバナンススキーマ、パイプライン、データ移行スキーマ移行パイプラインの移行データ移行マイグレーション・ステージ概要
5.データレイクのアーキテクト
データレイクとクラウド-完璧な結婚オンプレミス・データレイクの課題クラウドデータレイクの利点設計と実装バッチとストリームデータカタログHadoopの展望Cloud Data Lakeリファレンスアーキテクチャデータレイクを統合する：真のスーパーパワー湖を拡張するAPIApache Iceberg、Apache Hudi、Delta Lakeによるデータレイクの進化ノートブックによるインタラクティブな分析データ処理と報告の民主化データへの信頼を築くデータ収集は依然としてITの問題であるデータレイクにおけるML生データでのトレーニングデータレイクで予測する概要
6.エンタープライズ・データウェアハウスでイノベーションを起こす
最新のデータプラットフォーム組織の目標技術的課題技術動向とツールハブアンドスポーク・アーキテクチャデータ・インジェストビジネス・インテリジェンス変貌組織構造データサイエンティストを可能にするDWHクエリ・インターフェイスストレージAPIデータを動かさずにMLを構築する概要
7.レイクハウスに集結する
ユニークなアーキテクチャの必要性ユーザ・ペルソナアンチパターン切断されたシステムアンチパターン重複データコンバージド・アーキテクチャつの形態クラウドストレージのレイクハウスSQLファーストのレイクハウスコンバージェンスの利点概要
8.ストリーミングのアーキテクチャ
ストリーミングの価値業界別使用例ストリーミングの使用例ストリーミング・インジェストストリーミングETLストリーミングELTストリーミング・インサートエッジデバイス（IoT）からのストリーミングストリーミング・シンクリアルタイム・ダッシュボードライブクエリいくつかのビューを具体化するストリーム分析時系列分析クリックストリーム分析異常検出レジリエンス・ストリーミングMLによる継続的インテリジェンスストリーミング・データのトレーニング・モデルストリーミングML推論自動化されたアクション概要
9.ハイブリッドとエッジを使ってデータプラットフォームを拡張する
なぜマルチクラウドなのか？単一クラウドはよりシンプルでコスト効率に優れているマルチクラウドは避けられないマルチクラウドは戦略的かもしれないマルチクラウドのアーキテクチャパターン一枚ガラス一度書けば、どこでも実行できるオンプレミスからクラウドへの飛躍オンプレミスからクラウドへのパススルーストリーミングによるデータ統合マルチクラウドの採用フレームワーク時間スケール目標とするマルチクラウドアーキテクチャを定義するなぜエッジ・コンピューティングなのか？帯域幅、遅延、パッチ接続使用例利点課題エッジコンピューティングのアーキテクチャパターンスマートデバイススマートゲートウェイMLアクティベーションエッジコンピューティングの導入初期化の背景プロジェクト最終的な成果と次のステップ概要

10.AIアプリケーション・アーキテクチャ
これはAI/MLの問題なのか？AIのサブフィールド生成AIMLに適した問題購入か、適応か、それとも建設か？データに関する考察いつ買うべきか何が買えるのか？適応の仕組みAIアーキテクチャ非構造化データを理解する非構造化データを生成する結果を予測する予測値異常検出パーソナライゼーションオートメーション責任あるAIAIの原則MLの公平性説明可能性概要
11.MLプラットフォームのアーキテクト
ML活動MLモデルの開発ラベリング環境開発環境ユーザ環境データの準備MLモデルのトレーニングMLモデルをデプロイするエンドポイントにデプロイするモデルを評価するハイブリッドとマルチクラウドトレーニング・サーブ・スキューオートメーショントレーニングとデプロイの自動化パイプラインによるオーケストレーション継続的な評価とトレーニングMLフレームワークの選択チーム・スキルタスクに関する考察ユーザ中心概要
12.データプラットフォームの近代化：モデルケース
新時代の新技術変革の必要性技術だけの問題ではない旅の始まり現在の環境ターゲット環境PoCのユースケースクラウドベンダが提案したRFPレスポンスターゲット環境移民に関するアプローチRFP評価プロセスPoCの範囲PoCの実行最終決断灌漑概要
インデックス
著者について

Content preview from データおよび機械学習プラットフォームのアーキテクト

第11章. MLプラットフォームをアーキテクトする

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

前の章では、ML アプリケーションの全体的なアーキテクチャについて、また、多くの場合、事前に構築されたMLモデルを使用することについて議論した。場合によっては、MLアプリケーションの核となるMLモデルを開発しなければならない。

この章では、そのようなカスタムMLモデルの開発とデプロイについて掘り下げていく。MLモデルの開発段階と、そのような開発をサポートするフレームワークを見ていく。モデルが作成された後は、この移行を支援するツールや製品を調べることで、学習プロセスを自動化する必要がある。最後に、エンドポイントにデプロイされた学習済みモデルの振る舞いを監視し、推論を行う際にドリフトしていないかどうかを確認する必要がある。

以前の章では、データプラットフォームの様々な部分によって実現されるML機能について説明した。具体的には、MLプラットフォームのデータストレージはデータレイク（第5章）やDWH（第6章）にあり、トレーニングはそのストレージに効率的なコンピュートで実行され、推論はストリーミングパイプライン（第8章）から呼び出されるか、エッジ（第9章）にデプロイされる。この章では、これらの議論をまとめ、これらのML機能には何が必要かを考察する。

ML活動

カスタムMLモデル開発をサポートするためにML プラットフォームを構築する場合、どのような活動をサポートする必要があるのだろうか？アーキテクトが、データサイエンティストやMLエンジニアがプラットフォーム上でできるようにする必要がある多くの活動を考慮せずに、MLフレームワーク（「データサイエンティストが使うものだから、XGBoostとPyTorchをサポートする必要がある」）にすぐに飛びつくのをよく見かける。

通常、MLプラットフォームは図11-1の活動をサポートしなければならない。

Activities that an ML platform needs to support

生データをクリーンにして処理し、MLに適した状態にし、その結果得られる学習済みモデルをより正確なものにする必要がある。データの準備には、データを調べ、その分布をプロットし、そのニュアンスを研究するための探索的データ解析が必要である。次に、MLモデルをデータのサブセットでトレーニングし、別のサブセットを使って評価する。これに基づいて、データサイエンティストはデータ準備やモデリングのステップを変更する。このプロセスは反復的であり、通常は多くの実験を伴う。

モデルのトレーニングが終わったら、テストデータに対して評価し、コンプライアンスとパフォーマンスをチェックし、エンドポイントにデプロイする必要がある。MLモデルのクライアントは、エンドポイントに予測リクエストを送ることができる。

訓練されたモデルは、いつまでも目的に適合しているわけではない。通常、環境は変化し、時間の経過とともにモデルの精度は落ちていく。したがって、モデルのトレーニングとデプロイのステップを自動化し、モデルが常に最新で正確であるようにしなければならない。

また、モデルを注意深く継続的に監視し（入力される予測要求を確実に処理していることを確認する）、評価し（予測が正確であり続け、特徴がドリフトしていないことを確認する）、新しいトレーニングデータや新しいコードがあるとき、あるいはモデルのドリフトが検出されたときはいつでも再トレーニングしなければならない。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341624719

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

データおよび機械学習プラットフォームのアーキテクト

by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner

第11章. MLプラットフォームをアーキテクトする

ML活動

図11-1. MLプラットフォームがサポートすべき活動

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.