詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
11章成功するデザインパターン
Delta Lakeの柔軟性とデータアプリケーションへの適用範囲を考えると、Delta Lakeを活用できるすべてのケースを網羅することは、紙の使い道をすべて説明しようとするようなものだ。その多様性は無限のように感じ、その価値も計り知れない。とはいえ、この章ではDelta Lakeを使用する代表的なケースを取り上げ、その価値を明確に示すことを目指す。
まず、Delta Lakeのパフォーマンス最適化とメンテナンス作業の簡素化によって、Comcastがスマートリモート処理の実行に必要なリソース量を10分の1に削減できた事例を紹介する。次に、ScribdがどのようにDelta Lakeエコシステムを進化させ、構造化ストリーミングと比べて100倍安いDelta Rust実装を開発した事例を紹介する。最後に、Delta LakeがDoorDashのFlinkを用いた高スループットな運用向けCDC(変更データキャプチャ)処理にDelta Lakeを活用し、複数のシステムから得られたデータを唯一の信頼できるデータソースとしてレイクハウスに統合した事例を紹介する。各セクションには、より詳しく学びたい読者向けに関連リソースも掲載されている。
11.1 計算コストの削減
このセクションは、文字通り多くの読者にとって関心のあるテーマだろう。文字通り、ここ数年で、ストリーミング型エンターテインメントサービスが急増していることは周知の事実である。この種のサービスを支える企業は、大規模かつ高スループットなストリーミングデータを管理、処理する必要があり、それがサービスの継続的な提供に直結している。
11.1.1 高速ソリューション
ストリーミングメディアサービスでは、通常個々のエンドユーザデバイスからデータを取得する。このようなサービスを安定して提供するには、デバイスの状態、アプリケーションの状態、再生イベント情報、ユーザの操作情報など、さまざまな種類の情報が必要になる。こうした要件は、高スループットのストリーム処理アプリケーションやソリューションを構築する必要性に。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access