詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
序文:Michael Armbrust
Deltaプロトコルを初めて思いついたのは、Spark Summit 2017でDominique Brezinski(Dom)に会ったときである。彼が描いていたデータ処理の拡張について話をしてくれたとき、私は、DatabricksがApache Sparkの運用に対する協調的なアプローチを通じて、彼が成功するために必要なクラウド規模のコンピューティング環境をすでに築いていると確信した。しかし同時に、Domがプライベートクラウドに収集し続けている膨大なデータレイクへの複雑なトランザクションアクセスを管理するために、新たなシステムを導入しなければ、当時の基盤では不十分であることもわかっていた。Apache Sparkそのものが、スケーラブルなトランザクションの一貫性を保証するエンジンとして機能できるという認識こそが、現在まで続くDelta Lakeの継続的な成功を支える重要な鍵であった。つまり、シンプルかつスケーラビリティを実現するために、メタデータをデータと同じ方法で処理し、クエリする対象として扱うことにしたのである。
この1つの洞察と、そこから生まれたプロトコルを、ストリーミングデータ管理ソリューションで開発者が使用できる包括的なツールであるDelta Lakeへと具現化するまでの道のりは長く、多くの人々の協力によって支えたれてきた。Delta Lakeがオープンソースプロジェクトとなったことで、コミュニティからの意見や貢献を通じて進化してきた。その結果として生まれた堅牢性の高いエコシステムには、Flink、Trino、Presto、Pulsarといった複数のフレームワークやRust、Go、Java、Scala、Hive、Pythonなどの複数の言語で実装されたDeltaプロトコルが含まれている。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access