詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川 亮, 倉光 怜, 小谷 尚太郎, 竹下 俊一郎
序文
『詳解 データレイクハウスアーキテクチャ』へようこそ! 2019年にオープンソースプロジェクトとなって以来、Delta Lakeは組織がデータを管理・処理する方法に革命をもたらした。Delta Lakeは、データレイクに信頼性、パフォーマンス、スケーラビリティをもたらすために設計されており、従来のデータレイクアーキテクチャが抱える本質的な課題の多くに対処している。
過去5年間で、Delta Lakeは大きな変貌を遂げた。当初はApache Sparkを強化することに重点を置いていたDelta Lakeだが、今ではApache FlinkやTrinoなど、さまざまなプラットフォームとの統合を通じて、豊富なエコシステムを誇るまでに至った。この進化により、Delta Lakeは現代のデータエンジニアリングとデータサイエンスワークフローにおける汎用的かつ不可欠なコンポーネントとなっている。
本書の対象読者
私たちは、Delta Lakeを本番環境で利用し、またメンテナンスを行うチームとして、私たちが培ってきた集合的な知識と経験を皆さんと共有できることを心から嬉しく思う。Delta Lakeとともに歩んできた私たちの旅は、小規模な実装からインターネット規模の本番稼働レベルのレイクハウスにまで及び、その機能と複雑な問題を回避する方法についてユニークな視点を与えてくれる。
本書の第一の目的は、データレイクハウスアーキテクチャの初心者と専門家の両方に対して、包括的なソリューションを提供することである。Delta Lakeを使い始めたばかりの方には、その基本原則を明らかにし、私たちが初期の頃に遭遇した一般的な失敗を回避するための手助けをしたいと考えている。一方で、Delta Lakeに精通している方には、その背後にあるコードベースや高度な機能、そしてレイクハウス環境を強化するための最適化テクニックに関する貴重な洞察を見出してもらえるだろう。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access