book

メダリオンアーキテクチャの構築

Name: メダリオンアーキテクチャの構築
Author: Piethein Strengholt
ISBN: 9798341638457

by Piethein Strengholt

March 2025

Intermediate to advanced

396 pages

6h 20m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を読むべき人本書のナビゲーション本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.メダリオンの枠組みを理解する
1.データアーキテクチャの進化
メダリオン建築とは何か？データウェアハウスアーキテクチャの歴史OLTPシステムデータウェアハウスステージング・エリアインモンの方法論キンボール方式従来のデータウェアハウスからの主な教訓データレイクの歴史Hadoopの分散ファイルシステムマップリデュースApache Hiveスパーク・プロジェクトデータレイクを前進させるレイクハウス建築の歴史Sparkの創設者たちオープン・テーブル形式の出現レイクハウス・アーキテクチャーの台頭メダリオン・アーキテクチャーとその実際的課題結論
2.基礎固め
前提条件特別着陸帯生データバッチ処理リアルタイムデータ処理Spark構造化ストリーミングデータフィードを変更する変更データの取得考察と学習リソースETLとオーケストレーションツールデルタテーブルを管理するZオーダーVオーダーテーブル・パーティショニング液体クラスタリングコンパクションと最適化された書き込みデルタログ結論
3.メダリオン・アーキテクチャを解明する
三層構造のデザインブロンズ層処理階層フルデータのロードを処理するインクリメント・データ・ロードを処理するブロンズ・レイヤーのデータ履歴化スキーマの進化と管理マージスキーマとスキーマエンフォースメント技術的バリデーション・チェック使用法とガバナンスブロンズ層の実践シルバーレイヤーデータのクリーニング活動シルバーレイヤーのデータモデルを設計する他の情報源との調和3NFとデータVault演算クエリと機械学習重複する要件を管理するオートメーション・タスクシルバーレイヤーの実際ゴールドレイヤースタースキーマスタースキーマデザインのニュアンスキュレーションレイヤー、セマンティックレイヤー、プラチナレイヤーワン・ビッグ・テーブル・デザインサービング・レイヤーゴールドレイヤーの実際結論
II.メダリオン・レイヤーを作る
4.Microsoft FabricでMedallion Foundationを構築する
私たちのケーススタディオセアニック航空マイクロソフト・ファブリックの紹介ドメインワークスペースとキャパシティワンレイクSparkを使ったデータエンジニアリングT-SQLによるデータウェアハウスその他のファブリックワークロードタイプ土台をセットアップするキャパシティのセットアップドメインのセットアップワークスペースをセットアップするレイクハウスの作成容量に関する考察ドメインに関する考察ワークスペースに関する考察レイクハウス事業体に関する考察ストレージ・アカウントに関する考察結論
5.ブロンズ層を作る
データパイプラインを構築するAdventureWorksサンプルデータベースのデプロイAzure SQLデータベース接続をセットアップする新しいデータパイプラインを作成するその他の考慮事項レイクハウス・テーブルの実装パーケットファイルからマネージドデルタテーブルにトラバースする外部テーブルを使用するMERGE操作によるテーブルの更新Spark構造化ストリーミング変更データ・キャプチャーを使用するデータを扱うテクニックをナビゲートするスキーマ管理スキーマを定義せずにテーブルを作成するDataFrame APIでスキーマを定義するSQL DDLステートメントYAMLまたはJSON設定メタデータ主導のアプローチDatabricks オートローダーサードパーティツールスキーマの進化に対応する結論
6.シルバーレイヤーを作る
簡単な総括メタデータ駆動アプローチの実装メタデータ・ストアの実装動的データ検証の実装改善分野データ・クレンジングデータクレンジングタスクの実装データクレンジングに関する考察データ変換フレームワークとデータ品質ツール非正規化によるクエリパフォーマンスの最適化軽量エンリッチメントデータの履歴化最適化の仕事Apache AirFlowによるオーケストレーション最終勧告製品としてのシルバーレイヤー・データ結論

7.ゴールドレイヤーを合理化する
金層のデザインスタースキーマを使ってデータを変換するセマンティック・モデルの作成最初のPower BIレポートの作成タスクフローの作成ゴールドレイヤー設計の強化マイクロソフト・ファブリックの実践データ製品Microsoft Purviewによるデータガバナンスマイクロソフトのパービュー設計に関する考慮事項メダリオン・アーキテクチャーのガイダンス結論
III.実際のケーススタディ
8.ケーススタディAPペンションのデータ、アナリティクス、ビジネス戦略
メダリオン・アーキテクチャーその他の考慮事項最終勧告
9.ケーススタディ旅行業界の技術リーダー、アマデウス
メダリオン・アーキテクチャーFinOpsデータモデルデータ契約データガバナンス
10.ケーススタディZEISSにおける戦略的データ変革
データプラットフォームの進化メダリオン・アーキテクチャーデータ製品と共有推奨事項とベストプラクティス
IV.スケーリング、ガバナンス、メダリオン・アーキテクチャの未来
11.メダリオンアーキテクチャを拡大縮小する
データ管理の分散化連盟の柔軟性メダリオン・メッシュメダリオン・アーキテクチャーの数メダリオン・インナー・アーキテクチャーのバリエーションデータ製品のレイヤーを分けるテーラード・メダリオン・アーキテクチャーブロンズ層の適応性シルバーレイヤーのバリエーションゴールドレイヤーのバリエーションエンタープライズ・データ・モデルマスターデータ管理リファレンス・データ管理結論
12.メダリオンのガバナンスとセキュリティ
データガバナンスメダリオン・アーキテクチャーの中でのガバナンスUnityカタログUnityカタログ付きメダリオン建築データ契約カタログ内の契約メタストア内の契約YAMLファイルとGitOpsを使ったデータコントラクトその他のデータ契約仕様データ・セキュリティとアクセス管理結論
13.生成AIによる未来のメダリオンアーキテクチャ
非構造化データ処理検索拡張世代ブロンズ層シルバーレイヤーゴールドレイヤーLLMとメダリオン・アーキテクチャーの統合代理店の役割LLMの訓練と微調整メダリオン・アーキテクチャーの未来結論
インデックス
著者について

Content preview from メダリオンアーキテクチャの構築

第5章. ブロンズ層を構築する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

Microsoft Fabricであれ、Azure Databricksであれ、データプラットフォームの基盤を確立したら、次はBronzeレイヤーを構築する番だ。これは、すべての生データが最初に着地するレイヤーであり、データはオリジナルの形で維持される。歴史的なアーカイブとして、また信頼できる単一のソースとして機能する。

最初のレイヤーをセットアップする練習の一環として、接続のセットアップ、最初のデータパイプラインのビルド、データの取り込みとスキーマ管理の処理方法の検討といったタスクに取り組むことになる。その過程で様々なコード・スニペットに出会うだろう。これらのスニペットは、プロセスを明確にするためのもので、学習のためのものもあれば、コーディングの練習で実際に使えるものもある。ただし、これらの例は教育目的のために簡素化されているので、実際のシナリオに適用する際には少し手を加える必要があるかもしれないことを覚えておいてほしい。

この章が終わるころには、Medallionアーキテクチャのブロンズレイヤーをどのように構築・実装すればよいかを、ブロンズレイヤーにおけるデータの取り込みと管理に伴う微妙なニュアンスを含めて、完全に理解していることだろう。この強固なベースが、その後のSilverとGoldのステージに備えることになる。まずはデータパイプラインの構築から始めよう。

データパイプラインを構築する

このセクションでは、Data Factoryを使ってデータパイプラインを構築する、¹SparkとDelta Lakeを統合しながら、Data Factoryを使ってデータパイプラインを構築する。この実践的な旅は、これらのツールが実践的な設定でどのように相互接続するかを理解するスキルを身につけることになるだろう。

注

Azureデータファクトリーを使用する場合、Microsoftファブリックのデータファクトリーと比較して、いくつかの設定ダイアログに若干の違いがあることに気づくかもしれない。もしAzure Databricksを使用していて相違がある場合は、Azure Databricksの初期化手順を参照してほしい。

の前提条件から始まり、初期データソースとなるAdventureWorks サンプルデータベースをデプロイする。そこから、Data Factoryを使用して、このデータをBronzeレイヤーに取り込む。接続の詳細設定、新しいデータパイプラインの作成、様々なパイプラインアクティビティの設定などが含まれる。作業を進めるにつれ、説明、スクリーンショット、考慮すべき重要なパラメータなど、詳細なガイダンスが提供される。この章の中間結果を図5-1に示す。

このセクションが終わる頃には、Lakehouseテーブルを実装するための貴重な知見と推奨事項を得ることができるだろう。この後はスキーマ管理について説明する。

AdventureWorksサンプルデータベースのデプロイ

この演習では、実際のデータソース（）を新しい環境に導入するためのショーケースとして、AdventureWorksサンプルデータベースを使用する。AdventureWorksサンプルデータベースは、デモンストレーションやトレーニングの目的で広く使用されているデータベースであり、データ取り込み、データ品質の修正、データ統合アクティビティの構築の研究に最適である。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341638457

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills