book

詳解データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス

Name: 詳解 データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス
ISBN: 9784814401390

by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川亮, 倉光怜, 小谷尚太郎, 竹下俊一郎

November 2025

Beginner to intermediate

388 pages

6h 8m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　表紙
　大扉
　原書大扉
　クレジット
　監訳者まえがき
　推薦の言葉
　序文：Michael Armbrust
　序文：Dominique Brezinski
　序文
　1章　Delta Lakeにおけるレイクハウスフォーマット
　　1.1　Delta Lakeの誕生　　　1.1.1　データウェアハウス、データレイク、データレイクハウス　　　1.1.2　プロジェクトTahoeからDelta Lakeへ：初めの数ヶ月　　1.2　Delta Lakeとは何か？　　　1.2.1　一般的な使用例　　　1.2.2　主な特徴　　1.3　Delta Lakeテーブルの解剖　　1.4　Deltaトランザクションプロトコル　　　1.4.1　ファイルレベルでのDelta Lakeトランザクションログの理解　　　1.4.2　信頼できる唯一の情報源（Single Source of Truth：SSOT）　　　1.4.3　メタデータとデータの関係　　　1.4.4　マルチバージョン同時実行制御（MVCC）ファイルとデータの可観測性　　　1.4.5　メタデータとデータの相互作用を観察する　　　1.4.6　テーブルに関する機能（Table Features）　　1.5　Delta Kernel　　1.6　Delta UniForm　　1.7　まとめ

　2章　Delta Lakeを導入する
　　2.1　Delta Lake Dockerイメージ　　　2.1.1　Python向けDelta Lake　　　2.1.2　PySparkシェル　　　2.1.3　JupyterLabノートブック　　　2.1.4　Scalaシェル　　　2.1.5　Delta Rust API　　　2.1.6　ROAPI　　2.2　Delta Lakeのネイティブライブラリ　　　2.2.1　複数のバインディングを用意　　　2.2.2　Delta LakeのPythonパッケージのインストール　　2.3　Apache SparkとDelta Lakeの組み合わせ　　　2.3.1　Apache SparkでDelta Lakeをセットアップする　　　2.3.2　前提条件：Javaのセットアップ　　　2.3.3　対話型シェルのセットアップ　　2.4　PySparkの宣言型API　　2.5　Databricks Free Edition　　　2.5.1　Databricks Runtimeでクラスタを作成する　　　2.5.2　ノートブックをインポートする　　　2.5.3　ノートをアタッチする　　2.6　まとめ
　3章　Delta Lakeの操作
　　3.1　テーブルの作成　　　3.1.1　Delta Lakeテーブルを作成する　　　3.1.2　Delta Lakeテーブルにデータをロードする　　　3.1.3　トランザクションログ　　3.2　Read（読み込み）　　　3.2.1　Delta Lakeテーブルからデータをクエリする　　　3.2.2　タイムトラベルを用いた読み込み（Read）　　3.3　Update（更新）　　3.4　Delete（削除）　　　3.4.1　Delta Lakeテーブルからデータを削除する　　　3.4.2　Delta Lakeテーブルのデータを上書きする　　3.5　MERGE（結合）　　3.6　その他の便利なアクション（処理）　　　3.6.1　Parquet変換　　　3.6.2　Delta Lakeのメタデータと歴史　　3.7　まとめ
　4章　Delta Lakeエコシステムの詳細解説
　　4.1　コネクタ　　4.2　Apache Flink　　　4.2.1　Flink DataStream Connector　　　4.2.2　コネクタのインストール　　　4.2.3　DeltaSource API　　　4.2.4　DeltaSink API　　　RowType　　　4.2.5　エンドツーエンドの例　　4.3　Kafka Delta Ingest　　　Apache Kafkaの概要　　　4.3.1　Rustのインストール　　　4.3.2　プロジェクトのビルド　　　4.3.3　取り込みフローの実行　　4.4　Trino　　　4.4.1　はじめに　　　4.4.2　Trinoコネクタの設定と使用方法　　　4.4.3　Show Catalogsの利用　　　4.4.4　スキーマの作成　　　4.4.5　スキーマの表示　　　4.4.6　テーブルの操作　　　4.4.7　テーブルのメンテナンス操作　　4.5　まとめ
　5章　Delta Lakeのメンテナンス
　　5.1　Delta Lakeテーブルプロパティの活用　　　5.1.1　Delta Lakeテーブルプロパティのリファレンス　　　5.1.2　テーブルプロパティを持つ空のテーブルを作成する　　　5.1.3　テーブルにデータを投入する　　　Schema Enforcement（スキーマ強化）とSchema Evolution（スキーマ進化)　　　5.1.4　テーブルのスキーマ進化（Schema Evolutionの実行）　　　自動的なスキーマ進化に対する代替案　　　5.1.5　テーブルプロパティの追加または変更方法　　　5.1.6　テーブルプロパティの削除　　　（Sparkのみ）デフォルトのテーブルプロパティ　　5.2　Delta Lakeテーブルの最適化　　　5.2.1　大きなテーブルと小さなファイルにまつわる問題　　　5.2.2　OPTIMIZEを使ったSmile File Problemの解決　　5.3　テーブルのチューニングと管理　　　5.3.1　テーブルのパーティション分割　　　5.3.2　テーブル作成時のパーティションの定義　　　5.3.3　非パーティションテーブルからパーティションテーブルへの移行　　5.4　テーブルデータの修復、復元、置換　　　5.4.1　テーブルの復元と置換　　　5.4.2　データの削除とパーティションの削除　　　5.4.3　Delta Lakeテーブルのライフサイクル　　　5.4.4　テーブルの復元（リストア）　　　5.4.5　不要データのクリーンアップ（Cleaning Up）　　5.5　まとめ
　6章　Delta Lakeを利用したネイティブアプリケーションの構築
　　6.1　開発環境の準備（Getting Started）　　　6.1.1　Python環境のセットアップ　　　6.1.2　Rust　　　6.1.3　Lambdaの構築　　6.2　まとめ
　7章　Delta Lakeへのストリーミングの入出力
　　7.1　ストリーミングとDelta Lake　　　7.1.1　ストリーミングとバッチ処理の比較　　　7.1.2　データソースとしてのDelta Lake　　　7.1.3　データシンクとしてのDelta Lake　　7.2　Deltaストリーミングの設定オプション　　　7.2.1　入力レートを制限する　　　7.2.2　更新や削除を無視する方法　　　7.2.3　処理の開始位置の指定　　　7.2.4　初期スナップショットにおけるwithEventTimeOrderオプションの利用　　7.3　Apache Sparkを用いた高度な使用例　　　7.3.1　冪等性を持ったストリーム書き込み処理　　　7.3.2　Delta Lakeのパフォーマンスメトリクス　　7.4　Auto LoaderとDelta Live Tables　　　7.4.1　Auto Loader　　　7.4.2　Delta Live Tables（Spark Declarative Pipeline）　　7.5　Change Data Feed（変更データフィード）　　　7.5.1　Change Data Feed（CDF）の活用方法　　　7.5.2　変更データフィード（CDF）のスキーマ　　7.6　まとめ
　8章　高度な機能
　　8.1　生成列（Generated Columns）・キー・ID　　8.2　コメントと制約（Comments and Constraints）　　　8.2.1　コメント　　　8.2.2　Deltaテーブルの制約（Constraints）　　8.3　削除ベクトル（Deletion Vectors）　　　8.3.1　マージオンリード（Merge-on-Read）　　　8.3.2　削除ベクトルの処理ステップ　　8.4　まとめ
　9章　レイクハウスのアーキテクチャ設計
　　9.1　レイクハウスアーキテクチャ　　　9.1.1　レイクハウスとは何か？　　　9.1.2　データウェアハウスから学ぶ　　　9.1.3　データレイクから学ぶ　　　9.1.4　2層型データアーキテクチャ（Dual-Tier Data Architecture）　　　9.1.5　レイクハウスアーキテクチャ　　9.2　基盤としてのDelta Lake　　　9.2.1　オープンエコシステムにおけるオープンな標準規格のオープンソース　　　9.2.2　トランザクションのサポート　　　9.2.3　スキーマ強制とガバナンス　　9.3　メダリオンアーキテクチャ　　　9.3.1　ブロンズ層の詳細　　　SparkのPermissive Modeによるブロンズ層の保護　　　9.3.2　シルバー層の詳細　　　9.3.3　ゴールド層の詳細　　9.4　ストリーミング・メダリオンアーキテクチャ　　9.5　まとめ
　10章　パフォーマンスチューニング：Delta Lakeでのデータパイプライン最適化
　　10.1　パフォーマンス目標　　　10.1.1　読み取り性能の最大化　　　10.1.2　書き込み性能の最大化　　10.2　パフォーマンスに関する考察　　　10.2.1　パーティショニング　　　10.2.2　テーブルユーティリティ　　　10.2.3　テーブルの統計情報　　　10.2.4　Cluster By　　　10.2.5　ブルームフィルタインデックス（Bloom Filter Index）　　10.3　まとめ
　11章　成功するデザインパターン
　　11.1　計算コストの削減　　　11.1.1　高速ソリューション　　　11.1.2　スマートデバイスの統合　　11.2　効率的なストリーミングでのデータ取り込み　　　11.2.1　ストリーミングでのデータ取り込み　　　11.2.2　Delta Rustの誕生　　　11.2.3　データ取り込みの進化　　11.3　複雑なシステムの連携　　　11.3.1　DoorDashにおけるデータストアの統合　　　11.3.2　変更データの取得（Change Data Capture）　　　11.3.3　DeltaとFlinkの協調　　11.4　まとめ
　12章　レイクハウスのガバナンスとセキュリティの基礎
　　12.1　レイクハウスのガバナンス　　12.2　データガバナンスの出現　　　12.2.1　データプロダクトとデータ資産との関係　　　12.2.2　レイクハウスのデータプロダクト　　　12.2.3　高い信頼の維持　　12.3　データ資産とアクセス　　12.4　データ資産モデル　　　SQLのGRANTでデータアクセスを管理する　　12.5　データウェアハウスとデータレイクのガバナンスの統合　　　12.5.1　権限管理　　　12.5.2　ファイルシステムの権限管理　　　12.5.3　クラウドオブジェクトストレージのアクセス制御　　　12.5.4　アイデンティティとアクセス管理（IAM）　　　12.5.5　データセキュリティ　　　組織の成功のためにPrefixパターンを使う　　　12.5.6　レイクハウスのきめ細かなアクセス制御（Fine-Grained Access Control）　　12.6　まとめ
　13章　メタデータ管理、データフロー、リネージ
　　13.1　メタデータ管理　　　13.1.1　メタデータ管理とは何か？　　　13.1.2　データカタログ　　　13.1.3　データの信頼性、スチュワード、権限管理　　　13.1.4　なぜメタストアが重要なのか　　　13.1.5　Unity Catalog　　　Unity Catalog OSSを使ってみよう　　13.2　データフローとリネージ　　　13.2.1　データリネージ　　　デコレータと抽象化によるリネージの簡素化　　　13.2.2　データ共有　　　13.2.3　データライフサイクルの自動化　　　13.2.4　監査ログ　　　13.2.5　モニタリングとアラート　　　13.2.6　データ探索とは何か？　　13.3　まとめ
　14章　Delta Sharingプロトコルでのデータ共有
　　14.1　Delta Sharingの基本　　　14.1.1　データ提供者（Data Provider）　　　14.1.2　データ受信者（Data Recipient）　　14.2　Delta Sharingサーバ　　　14.2.1　REST APIを使う　　　14.2.2　REST URIの解剖　　　14.2.3　シェアの一覧　　　14.2.4　シェアの取得　　　14.2.5　シェアにおけるスキーマのリストアップ　　　14.2.6　シェア内の全テーブルのリスト　　14.3　Delta Sharingクライアント　　　14.3.1　Apache SparkによるDelta Sharing　　　14.3.2　Deltaシェアによるストリーム処理　　　14.3.3　Delta Sharingコミュニティのコネクタ　　14.4　まとめ
　著者紹介
　奥付

Content preview from 詳解データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス

序文：Michael Armbrust

Deltaプロトコルを初めて思いついたのは、Spark Summit 2017でDominique Brezinski(Dom)に会ったときである。彼が描いていたデータ処理の拡張について話をしてくれたとき、私は、DatabricksがApache Sparkの運用に対する協調的なアプローチを通じて、彼が成功するために必要なクラウド規模のコンピューティング環境をすでに築いていると確信した。しかし同時に、Domがプライベートクラウドに収集し続けている膨大なデータレイクへの複雑なトランザクションアクセスを管理するために、新たなシステムを導入しなければ、当時の基盤では不十分であることもわかっていた。Apache Sparkそのものが、スケーラブルなトランザクションの一貫性を保証するエンジンとして機能できるという認識こそが、現在まで続くDelta Lakeの継続的な成功を支える重要な鍵であった。つまり、シンプルかつスケーラビリティを実現するために、メタデータをデータと同じ方法で処理し、クエリする対象として扱うことにしたのである。

この1つの洞察と、そこから生まれたプロトコルを、ストリーミングデータ管理ソリューションで開発者が使用できる包括的なツールであるDelta Lakeへと具現化するまでの道のりは長く、多くの人々の協力によって支えたれてきた。Delta Lakeがオープンソースプロジェクトとなったことで、コミュニティからの意見や貢献を通じて進化してきた。その結果として生まれた堅牢性の高いエコシステムには、Flink、Trino、Presto、Pulsarといった複数のフレームワークやRust、Go、Java、Scala、Hive、Pythonなどの複数の言語で実装されたDeltaプロトコルが含まれている。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

実践 LLMアプリケーション開発 ―プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き

Publisher Resources

ISBN: 9784814401390Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

詳解データレイクハウスアーキテクチャ ―Delta Lakeを使ったデータAI活用とガバナンス

by Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu, 長谷川亮, 倉光怜, 小谷尚太郎, 竹下俊一郎

序文：Michael Armbrust

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.