12章データレイクハウス
データレイクハウスは、データレイクとデータウェアハウスの概念を融合させたアーキテクチャです。データレイクハウスは、リレーショナルデータウェアハウスを使わずに、すべてのデータをデータレイクに保存してシステムを簡素化するという考え方に基づいています。そのためには、データレイク自体にRDWの機能を代替できるような拡張が必要になります。ここで登場するのが、DatabricksのDelta Lakeです。
Delta Lakeは、トランザクション対応のストレージソフトウェアレイヤーであり、既存のデータレイク上で動作します。RDWに近い機能を追加し、データレイクの信頼性、セキュリティ、およびパフォーマンスを向上させます。なお、Delta Lake自体はストレージではありません。多くの場合、既存のデータレイクをDelta Lakeに変換するのは容易です。データレイクにデータを保存する際に、CSVやJSONなどの形式ではなく、Delta Lake形式で保存するように設定するだけです。
内部的には、Delta Lake形式でファイルを保存すると、そのファイルは独自の構造で管理されます。具体的には、フォルダ内のParquetファイルと、データへのすべての変更をトラッキングするトランザクションログで構成されます。実際のデータは従来どおりデータレイクに保存されますが、このトランザクションログが加わることで、データはDelta Lakeとして扱われ、高度な機能が追加されます。ただし、これを利用するすべてのシステムが、Delta Lake形式をサポートしている必要があります。幸い、現在ではDelta Lakeが広く普及しており、多くのプロダクトでこの形式がサポートされています。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access