詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
8章高度な機能
この章では、他の章に比べて、Delta Lakeテーブルの操作や利用方法に直接関係する話題よりも、便利な一部の高度な機能に焦点を当てる。これらは特にメタデータに関係したものである。まず最初に、生成列(Generated Columns)をテーブル定義に含めることで、データの挿入や変換に必要な作業量を削減する方法を説明する。その後、Delta Lakeのメタデータを活用して、制約(Constraints)やコメントを通じてデータ品質を向上させ、ユーザにより豊富な情報を提供する方法を紹介する。最後に、削除ベクトル(Deletion Vectors)が適用可能なテーブルに対するさまざまな操作をどのようにスピードアップさせるかについて共有する。これらの各機能は、テーブルのメタデータとトランザクションログをうまく利用することで、Delta Lakeの性能がさらに強化されていることを示している。
8.1 生成列(Generated Columns)・キー・ID
Delta Lakeにおいて比較的使われていない機能の1つとして 、Spark内で生成列を利用して動的に列の値を作成する機能がある。簡単に言うと、生成列とはテーブル定義時に簡単な式を追加することによって、その列の値を動的に生成する機能である。これにより、新規データ挿入時に明示的に値を挿入する代わりに、定義された式に基づいて自動的に値が生成される。生成列の利用方法は多岐にわたり、シンプルなID列(Identity Columns)の自動生成から、入力された既存の列を用いてシンプルな変換処理を行った新規列を作成するなど、幅広い活用が可能である。
|
この章のすべての例とその他のコードは、この本のGitHubリポジトリ(https://oreil.ly/2m8Kv ... |
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access