詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
13章メタデータ管理、データフロー、リネージ
前章では、レイクハウスにおけるガバナンスを成功させるために必要な基本要素を紹介した。これらの要素には、アイデンティティとアクセス管理(IAM)、データカタログ、メタストア、そしてレイクハウスを動かすクラウドベースの物理ストレージが含まれている。ロールとペルソナが、セキュリティとプライバシーを多層的に構築する上で、どのように役に立つかを示し、最後にSQLライクな権限管理を活用して、レイクハウスのアクセス制御を簡素化する方法について解説した。本章では、前章の続きとして、メタデータ管理の各構成要素と、データの動的な流れ(データフロー)を結びつけて解説する。具体的にはデータリネージ(データの来歴)や、および観測可能なデータアプリケーションを通して、これらをどのように把握・管理するかを扱っていく。
13.1 メタデータ管理
森の中で道に迷ったことはありますか? あるいは見知らぬ土地をGPSも地図もなくドライブしたことは? 迷子になるという経験は、誰しもに共通するものである。そして、これと同様な感覚を抱くのが、必要なテーブルにたどり着こうとしているデータチームである。「そのテーブルがあるはずなのに、どこにあるかわからない」、そんな状態である。メタデータ管理システムは、「迷子の状態」と「目的地にたどり着く」ための間を埋めてくれる存在である。ここで私たちがたどり着こうとしている目的地とは、信頼できるデータプロダクト群に含まれる正しい情報を提供してくれる既知のテーブル群である。メタストアやその上に構築されたサービス(例えば、データ探索機能など)は、私たちをその目的地へ導くコンパスのような役割を果たす。メタデータとは、データに関するデータであり、問題解決のためには不可欠な情報であり、正しいデータの目的地にたどり着くための手助けをしてくれる存在である。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access