6章データ形式詳説

デザインは見た感じのことだけではない。どう機能するかだ。

—— スティーブ・ジョブズ

データウェアハウスは、クエリパターンに適合するように設計された独自の(プロプライエタリな)データ形式を使用して構築されてきました。クラウドレイクハウスアーキテクチャパターンが普及するなどの理由でクラウドデータレイクが提供する分析の数が増えるとともに、クラウドデータレイク上で直接データウェアハウス風のクエリを実行できるような機能に投資する顧客企業やソリューションプロバイダが増えてきています。用途によってデータストア間でデータをコピーしたり戻したりといったことを最小限に抑えるアーキテクチャを提供するという目標に近づいています。このサイロなしのデータストレージという目標は、クラウドデータレイクストレージ上で直接データウェアハウススタイルのクエリを実行できるようにするオープンデータ形式を生み出し、その種数は増えてきています。この章では、そのようなデータ形式の例として、Apache Iceberg、Delta Lake、Apache Hudiを取り上げます。この章は、本書でもっとも技術的、専門的なものになります。設計対象の分析にどのように役立つかを含め、データ形式を詳細に見ていきます。この章で私が目指しているのは、みなさんがこれらのデータ形式の設計理由についてしっかりした知識を身につけ、これらの中のどれかを評価するときに適切な問いを投げかけられるようになり、みなさんのクラウドデータレイクアーキテクチャにとって適切なデータ形式を見つけられるようにすることです。

6.1 なぜオープンデータ形式が必要なのか

オープンデータ形式が必要な理由を一言で言うなら、クラウドデータレイクストレージが表形式データを格納できるようにするためにはオープンデータ形式が必要だからだということになります。ここからは2つの疑問が生まれるでしょう。なぜ表形式データを格納する必要があるのか、そしてクラウドデータレイクストレージに表形式データを格納することがなぜ問題になるのかです。これらの疑問について詳しく考えていきましょう。 ...

Get クラウドデータレイク ―無限の可能性があるデータを無駄なく活かすアーキテクチャ設計ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.