詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
7章Delta Lakeへのストリーミングの入出力
今や、世界はかつてないほどリアルタイムなデータソースにあふれている。eコマースやソーシャルネットワークのフィード、航空便のデータからネットワークセキュリティ、IoTデバイスに至るまで、データソースの量は増え続け、同時にそのデータへのアクセス速度も向上している。この状況における課題の1つは、一部のイベントレベルの処理が適している場合もあるものの、私たちが真に求めている情報の多くは、集計されたデータの中に存在していることである。そのため、私たちは「(a)洞察を得るまでの時間をできるだけ短縮する」という要求と、「(b)集計データから十分に有意義で実用的な情報を抽出する」という要求の間で板挟みになっている。長年にわたり、データ処理技術はこの方向へと進化を続けてきたが、Delta Lakeが誕生したのもまさにこの環境の中だった。Delta Lakeによって提供されたものは、オープンなレイクハウス形式であり、バッチ処理とストリーム処理を複数組み合わせてもシームレスに統合できるようになった。また、ACIDトランザクションやスケーラブルなメタデータ処理など、従来の分散データストアには一般的に欠けている必須の機能も備えている。このことを念頭に、本章ではDelta Lakeを用いたストリーム処理について詳しく掘り下げる。特に、ストリーム処理の核心となる機能、設定オプション、具体的な利用方法、そしてDelta LakeとDatabricks Delta Live Tablesとの関係性について解説する。
7.1 ストリーミングとDelta Lake
ここからは、基礎となる概念を取り上げた後、実際にDelta Lakeを使ったストリーム処理の具体的な内容に踏み込んでいく。まずは基本的な概念や用語の概要を確認し、その後、Delta ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access