詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
10章パフォーマンスチューニング:Delta Lakeでのデータパイプライン最適化
ここまでで、Delta Lak使ったさまざまなアプローチを学んできた。そして、Delta Lakデータのストレージフォーマットとして優れた信頼性をもたらす多くの機能がある。しかし、Delta Lakeテーブルのパフォーマンス最適化するには、まず5章で扱ったテーブルメンテナンスに関する基本的な仕組みの理解に加えて、8章で紹介された内部的および高度な機能を操作または実装するための知識と経験も必要である。
これからは、このパフォーマンスの側面に焦点を当て、これまで登場したいくつかの機能を詳細に見ながら、それらのパフォーマンスへの影響を掘り下げていく。なお、5章の内容を最近使っていない、または復習していない場合は、このタイミングで一度復習することを強くお勧めする。
一般的には、データの作成、消費、およびメンテナンス作業を、不要なコストをデータ処理パイプラインに加えることなく、可能な限り高い信頼性と効率性を達成したいと考えるだろう。時間をかけてワークロードを適切に最適化することで、こうした作業に伴うコストを抑えつつ、パフォーマンスに関するさまざまな要素とのバランスを取り、自身の目的に沿ったものにできる。
ここで理解すべきことは、すでに見てきたいくつかの機能を活用するとどう目的達成ができるかである。まず、目的が具体的に何であるかを明確にし、その後、Delta Lakeの各機能を検討し、それらが目的にどう影響するかを確認していく。
Delta Lakeは一般的にほとんど変更を加えずとも十分に利用できるが、現代のデータスタックに要求されることを考えると、常に改善の余地があることも事実である。最終的に、パフォーマンス最適化とは、さまざまなバランスを取りながらトレードオフを考慮し、必要なところで最大のメリットを得ることをである。そのため、特定のパラメータの変更するときは、影響を受ける他の設定についても必ず考慮するのが望ましい。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access