book

メダリオンアーキテクチャの構築

Name: メダリオンアーキテクチャの構築
Author: Piethein Strengholt
ISBN: 9798341638457

by Piethein Strengholt

March 2025

Intermediate to advanced

396 pages

6h 20m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を読むべき人本書のナビゲーション本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.メダリオンの枠組みを理解する
1.データアーキテクチャの進化
メダリオン建築とは何か？データウェアハウスアーキテクチャの歴史OLTPシステムデータウェアハウスステージング・エリアインモンの方法論キンボール方式従来のデータウェアハウスからの主な教訓データレイクの歴史Hadoopの分散ファイルシステムマップリデュースApache Hiveスパーク・プロジェクトデータレイクを前進させるレイクハウス建築の歴史Sparkの創設者たちオープン・テーブル形式の出現レイクハウス・アーキテクチャーの台頭メダリオン・アーキテクチャーとその実際的課題結論
2.基礎固め
前提条件特別着陸帯生データバッチ処理リアルタイムデータ処理Spark構造化ストリーミングデータフィードを変更する変更データの取得考察と学習リソースETLとオーケストレーションツールデルタテーブルを管理するZオーダーVオーダーテーブル・パーティショニング液体クラスタリングコンパクションと最適化された書き込みデルタログ結論
3.メダリオン・アーキテクチャを解明する
三層構造のデザインブロンズ層処理階層フルデータのロードを処理するインクリメント・データ・ロードを処理するブロンズ・レイヤーのデータ履歴化スキーマの進化と管理マージスキーマとスキーマエンフォースメント技術的バリデーション・チェック使用法とガバナンスブロンズ層の実践シルバーレイヤーデータのクリーニング活動シルバーレイヤーのデータモデルを設計する他の情報源との調和3NFとデータVault演算クエリと機械学習重複する要件を管理するオートメーション・タスクシルバーレイヤーの実際ゴールドレイヤースタースキーマスタースキーマデザインのニュアンスキュレーションレイヤー、セマンティックレイヤー、プラチナレイヤーワン・ビッグ・テーブル・デザインサービング・レイヤーゴールドレイヤーの実際結論
II.メダリオン・レイヤーを作る
4.Microsoft FabricでMedallion Foundationを構築する
私たちのケーススタディオセアニック航空マイクロソフト・ファブリックの紹介ドメインワークスペースとキャパシティワンレイクSparkを使ったデータエンジニアリングT-SQLによるデータウェアハウスその他のファブリックワークロードタイプ土台をセットアップするキャパシティのセットアップドメインのセットアップワークスペースをセットアップするレイクハウスの作成容量に関する考察ドメインに関する考察ワークスペースに関する考察レイクハウス事業体に関する考察ストレージ・アカウントに関する考察結論
5.ブロンズ層を作る
データパイプラインを構築するAdventureWorksサンプルデータベースのデプロイAzure SQLデータベース接続をセットアップする新しいデータパイプラインを作成するその他の考慮事項レイクハウス・テーブルの実装パーケットファイルからマネージドデルタテーブルにトラバースする外部テーブルを使用するMERGE操作によるテーブルの更新Spark構造化ストリーミング変更データ・キャプチャーを使用するデータを扱うテクニックをナビゲートするスキーマ管理スキーマを定義せずにテーブルを作成するDataFrame APIでスキーマを定義するSQL DDLステートメントYAMLまたはJSON設定メタデータ主導のアプローチDatabricks オートローダーサードパーティツールスキーマの進化に対応する結論
6.シルバーレイヤーを作る
簡単な総括メタデータ駆動アプローチの実装メタデータ・ストアの実装動的データ検証の実装改善分野データ・クレンジングデータクレンジングタスクの実装データクレンジングに関する考察データ変換フレームワークとデータ品質ツール非正規化によるクエリパフォーマンスの最適化軽量エンリッチメントデータの履歴化最適化の仕事Apache AirFlowによるオーケストレーション最終勧告製品としてのシルバーレイヤー・データ結論

7.ゴールドレイヤーを合理化する
金層のデザインスタースキーマを使ってデータを変換するセマンティック・モデルの作成最初のPower BIレポートの作成タスクフローの作成ゴールドレイヤー設計の強化マイクロソフト・ファブリックの実践データ製品Microsoft Purviewによるデータガバナンスマイクロソフトのパービュー設計に関する考慮事項メダリオン・アーキテクチャーのガイダンス結論
III.実際のケーススタディ
8.ケーススタディAPペンションのデータ、アナリティクス、ビジネス戦略
メダリオン・アーキテクチャーその他の考慮事項最終勧告
9.ケーススタディ旅行業界の技術リーダー、アマデウス
メダリオン・アーキテクチャーFinOpsデータモデルデータ契約データガバナンス
10.ケーススタディZEISSにおける戦略的データ変革
データプラットフォームの進化メダリオン・アーキテクチャーデータ製品と共有推奨事項とベストプラクティス
IV.スケーリング、ガバナンス、メダリオン・アーキテクチャの未来
11.メダリオンアーキテクチャを拡大縮小する
データ管理の分散化連盟の柔軟性メダリオン・メッシュメダリオン・アーキテクチャーの数メダリオン・インナー・アーキテクチャーのバリエーションデータ製品のレイヤーを分けるテーラード・メダリオン・アーキテクチャーブロンズ層の適応性シルバーレイヤーのバリエーションゴールドレイヤーのバリエーションエンタープライズ・データ・モデルマスターデータ管理リファレンス・データ管理結論
12.メダリオンのガバナンスとセキュリティ
データガバナンスメダリオン・アーキテクチャーの中でのガバナンスUnityカタログUnityカタログ付きメダリオン建築データ契約カタログ内の契約メタストア内の契約YAMLファイルとGitOpsを使ったデータコントラクトその他のデータ契約仕様データ・セキュリティとアクセス管理結論
13.生成AIによる未来のメダリオンアーキテクチャ
非構造化データ処理検索拡張世代ブロンズ層シルバーレイヤーゴールドレイヤーLLMとメダリオン・アーキテクチャーの統合代理店の役割LLMの訓練と微調整メダリオン・アーキテクチャーの未来結論
インデックス
著者について

Content preview from メダリオンアーキテクチャの構築

第1章. データアーキテクチャの進化

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

堅牢性の高いデータアーキテクチャの作成は、データ管理において最も困難な側面の一つである。データの収集から変換、配布、最終的な消費に至るデータの取り扱いプロセスは、様々な要因によって大きく異なる。これらの要因には、ガバナンス、使用ツール、組織のリスクプロファイル、規模、成熟度、ユースケースの要件、パフォーマンス、柔軟性、コスト管理などのニーズが含まれる。

このような違いはあるものの、どのデータのアーキテクチャも、いくつかの基本的なコンポーネントで構成されている。私はこれらのコンポーネントについて、以前の著作で紹介した概念である3階層化アーキテクチャの設計という比喩を使ってよく議論する：Data Management at Scale』（O'Reilly）で紹介した概念である。この設計は、組織がデータ管理戦略を概念的には構造化するのに役立つことが証明されている。第一層は様々なデータプロバイダー、第二層は配信プラットフォーム、第三層はデータコンシューマである。さらに、包括的なメタデータ・ガバナンス層は、データアーキテクチャ全体を管理・監督するために極めて重要である。図1-1にこの設計の反映を見ることができる。

左から順に、各レイヤーの概要を説明する：

第一層: このレイヤーは様々なデータ・プロバイダーで構成され、データが抽出される多様なソースを表している。この抽出されたデータは、異なる組織にまたがるデータの種類、形式、場所が混在しているのが特徴である。
第2層: このレイヤーはディストリビューション・プラットフォームを表し、利用可能なツールやテクノロジーが膨大にあるため複雑である。組織は、何千とは言わないまでも、何百もの製品やオープンソース・ソリューションの中から、統合のために選択するという困難な課題に直面している。
第3層: このレイヤーはデータコンシューマで構成され、データサービスを消費することを特徴とする。データ・サービスは、ビジネス・インテリジェンス、マシン学習、人工知能（AI）を活用し、予測、自動化、リアルタイムの洞察を提供する。その他のサービスは、基本的なストレージとデータ処理を管理する。この階層には、多種多様なテクノロジーやアプリケーションのタイプが含まれる。ビジネス上の問題ごとにカスタマイズされたソリューションが求められるため、最新のデータアーキテクチャでは両方のタイプのサービスが不可欠となる。

ハイレベル・アーキテクチャの丸めとして、私は通常、メタデータ・ガバナンス層と呼ばれる包括的なレイヤーを議論に描く。この階層は、データアーキテクチャ全体を監督・管理する上で重要な役割を果たす。

特に中間層の内部アーキテクチャ（）に焦点を当てた3階層化アーキテクチャは、組織内のデータプラットフォーム管理の進化を示している。これは、従来のプロプライエタリなデータウェアハウスシステムから、より適応性の高い、オープンソースで分散されたデータアーキテクチャへの大きな転換を示している。この変革は、モダン・データ・スタックと総称されるオープンソースのツールやフレームワークのコレクション（ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341638457

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

メダリオンアーキテクチャの構築

by Piethein Strengholt

第1章. データアーキテクチャの進化

図1-1. 階層化アーキテクチャ設計

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.