詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
14章Delta Sharingプロトコルでのデータ共有
共有することは、人生におけるごく自然な営みである。私たちは、達成した成果への誇りを伝えたり、喜び、怒り、苛立ち、喜びなどといった人間のあらゆる感情を分かち合う手段として、共有をする。子どもの頃には、自分の意思にかかわらず、おもちゃを共有することを学ぶ。この共有する行為そのものが、本来ならその体験から排除されていたかもしれない他者に、新たな経験をもたらす。
成長するにつれて、私たちは家族や友人と食事の機会を共有するようになる。それは感謝の気持ちを伝える方法であり、再会する手段でもある。つまり、共有とはこの世界に根付いた、ごく自然な文化的行為である。
Deltaテーブルにおいても、私たちは自分たちの成果を他者と共有する。それは組織内であっても外部であっても構わない。目的はさまざまだが、共通しているのは、テーブル内に含まれる貴重なデータへのアクセスしたい他のデータチームの労力を軽減するためである。ただし、データを共有するプロセス自体は、必ずしも単純なものではない。
例えば、多くのデータチームはいまだに次のようなありふれた方法を使っているとする。そのチームは、信頼できる1つの情報源(例えば基礎となるDeltaテーブル)からテーブルデータを抽出(コピー)することだけを目的として、定期的なジョブを設定し、各バッチで、各行をJSONのような一般的な中間形式に変換する。変換後のデータを(内部または外部の)別のクラウドストレージに(再度)書き込む。また別のケースでは、データチームはSFTP(SSHファイル転送プロトコル)や昔ながらのEメールでデータをやり取りしているかもしれない。このような現状を前に私たちは自問するかもしれない、「データをAからBにデータをコピーするのは安全なのか?」「そもそも、それこそがデータエンジニアリングではないのか?」こうした疑問はもっともであり、ある意味では正しい。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access