第5章. ブロンズ層を構築する
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
Microsoft Fabricであれ、Azure Databricksであれ、データプラットフォームの基盤を確立したら、次はBronzeレイヤーを構築する番だ。これは、すべての生データが最初に着地するレイヤーであり、データはオリジナルの形で維持される。歴史的なアーカイブとして、また信頼できる単一のソースとして機能する。
最初のレイヤーをセットアップする練習の一環として、接続のセットアップ、最初のデータパイプラインのビルド、データの取り込みとスキーマ管理の処理方法の検討といったタスクに取り組むことになる。その過程で様々なコード・スニペットに出会うだろう。これらのスニペットは、プロセスを明確にするためのもので、学習のためのものもあれば、コーディングの練習で実際に使えるものもある。ただし、これらの例は教育目的のために簡素化されているので、実際のシナリオに適用する際には少し手を加える必要があるかもしれないことを覚えておいてほしい。
この章が終わるころには、Medallionアーキテクチャのブロンズレイヤーをどのように構築・実装すればよいかを、ブロンズレイヤーにおけるデータの取り込みと管理に伴う微妙なニュアンスを含めて、完全に理解していることだろう。この強固なベースが、その後のSilverとGoldのステージに備えることになる。まずはデータパイプラインの構築から始めよう。
データパイプラインを構築する
このセクションでは、Data Factoryを使ってデータパイプラインを構築する、1SparkとDelta Lakeを統合しながら、Data Factoryを使ってデータパイプラインを構築する。この実践的な旅は、これらのツールが実践的な設定でどのように相互接続するかを理解するスキルを身につけることになるだろう。
注
Azureデータファクトリーを使用する場合、Microsoftファブリックのデータファクトリーと比較して、いくつかの設定ダイアログに若干の違いがあることに気づくかもしれない。もしAzure Databricksを使用していて相違がある場合は、Azure Databricksの初期化手順を参照してほしい。
の前提条件から始まり、初期データソースとなるAdventureWorks サンプルデータベースをデプロイする。そこから、Data Factoryを使用して、このデータをBronzeレイヤーに取り込む。接続の詳細設定、新しいデータパイプラインの作成、様々なパイプラインアクティビティの設定などが含まれる。作業を進めるにつれ、説明、スクリーンショット、考慮すべき重要なパラメータなど、詳細なガイダンスが提供される。この章の中間結果を図5-1に示す。
図5-1. データファクトリーのパイプラインの概要
このセクションが終わる頃には、Lakehouseテーブルを実装するための貴重な知見と推奨事項を得ることができるだろう。この後はスキーマ管理について説明する。
AdventureWorksサンプルデータベースのデプロイ
この演習では、実際のデータソース()を新しい環境に導入するためのショーケースとして、AdventureWorksサンプルデータベースを使用する。AdventureWorksサンプルデータベースは、デモンストレーションやトレーニングの目的で広く使用されているデータベースであり、データ取り込み、データ品質の修正、データ統合アクティビティの構築の研究に最適である。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access