book

Apache Polaris: 決定版ガイド

Name: Apache Polaris: 決定版ガイド
ISBN: 9798341670006

by Alex Merced, Andrew Madson, Tomer Shiran

September 2025

Intermediate to advanced

258 pages

3h 39m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
本書で使用される規約コード例を使うオライリーオンライン学習問い合わせ先謝辞
I.データレイクハウスとApache Icebergの基礎知識
1.データレイクハウスとApache Iceberg
現代データの課題データウェアハウスの世界データレイクを前進させるクラウド革命Apache Parquetによるファイルベースの分析データレイクハウスの解決策データレイクハウスの主な利点今後のパスデータレイクハウスのテーブル形式テーブル形式の役割テーブル形式の利点既存のテーブル形式ApacheアイスバーグApache Icebergとは何か？メタデータファイル (metadata.json)マニフェストリストマニフェストファイルデータファイルファイルの削除おわりに
2.Apache Icebergカタログの役割
Apache Icebergカタログとは何か？Apache Icebergカタログの仕組みApache Icebergカタログの種類ファイルシステムカタログサービスカタログ多様なカタログオプションの課題クライアント側の複雑さ設定の問題認可の課題統一されたアプローチの必要性Apache Iceberg RESTカタログ仕様RESTカタログ仕様の主な利点RESTカタログ実装の進化Apache PolarisApache Polarisの誕生ポラリスレイクハウス・カタログの新時代結論
II.アパッチ・ポラリス
3.Apache Polarisセキュリティモデル
Polarisとは何か？カタログPolarisカタログの主な特徴マルチカタログアーキテクチャの利点プリンシパルプリンシパルとは何か？プリンシパルの管理プリンシパルのライフサイクルカタログの役割カタログロールで権限を定義するプリンシパルにカタログロールを代入するカタログロールのベストプラクティスプリンシパルの役割プリンシパルロールとは何か？プリンシパルロールの利点プリンシパルロールのベストプラクティスPolaris セキュリティのベストプラクティスマルチテナント環境チームを超えたコラボレーションコンプライアンスと機密データガバナンスクラウドネイティブデプロイおわりに
4.外部カタログ
ネッシーNessieの特徴なぜPolarisでNessieを使うのか？例NessieとPolarisの実例グラビティーノGravitinoの特徴なぜPolarisでGravitinoを使うのか？例分散メタデータガバナンスレイクキーパーLakekeeperの特徴なぜPolarisでLakekeeperを使うのか？例マルチテナントのメタデータガバナンスAWSグルーなぜAWS Glueカタログを使うのか？なぜPolarisでGlueを使うのか？例ハイブリッドチームコラボレーションおわりに
5.Polaris REST API
カタログ演算子カタログのリストカタログを作成するカタログの詳細を取得するカタログを更新するカタログを削除するプリンシパルオペレーションプリンシパルのリストプリンシパルを作成するプリンシパルの詳細を取得するプリンシパルを更新するプリンシパルを削除するプリンシパルの資格情報をローテーションするロールの管理カタログの役割を作成するプリンシパルロールを作成するカタログロールのリストプリンシパルに代入されたロールのリストすべてのプリンシパルロールのリストプリンシパルロールに代入されたプリンシパルをリストするプリンシパルロールにマッピングされたカタログロールを取得するプリンシパルロールの詳細を取得するカタログの役割にグラントを追加するカタログロールからグラントを取り消すカタログの役割をプリンシパルの役割に代入するプリンシパルに役割を代入するプリンシパルロールを更新するプリンシパルから役割を取り消すプリンシパルからカタログの役割を取り消すプリンシパルロールを削除するカタログの役割を削除するApache Iceberg RESTカタログエンドポイント設定APIOAuth2 APIテーブルAPIビューAPIおわりに
III.Apache Polarisのハンズオン

6.Apache Polaris OSSとの連携
Dockerでローカルにデプロイする前提条件ステップ 1: リポジトリをクローンするステップ2：環境変数の設定ステップ3：Docker Composeファイルを理解するステップ4：環境を起動するステップ5：環境を停止するカタログの作成カタログを作成するタイミングカタログロールの作成カタログ・ロールを作成するタイミングプリンシパルを作成するプリンシパルロールの作成プリンシパルロールを作成するタイミングプリンシパルロールへのカタログロールの代入とカタログへの権限設定まとめ
7.Apache SparkでApache Polarisを使う
Apache PolarisカタログをApache Sparkに接続するApache PolarisでSpark Dataframe APIを使用する（インキュベート中）テーブルを作成するテーブルをクエリするテーブルを更新する行を削除するデータを追加するメタデータ・テーブルの読み取りApache PolarisでSparkSQLを使用するテーブルを作成するテーブルをクエリするデータの挿入データを更新するデータを削除するデータのマージメタデータテーブルの読み取りタイムトラベルクエリApache PolarisでSpark Streamingを使用するPolarisでSparkストリーミングをセットアップするPolarisからの読み取りをストリーミングするPolarisへの書き込みをストリーミングする削除と上書きパーティショニングされたテーブルを使うストリーミングテーブルを維持するまとめ
8.Apache PolarisをSnowflakeで使用する
SnowflakeとPolaris間の接続を確立する外部ボリュームを設定するPolarisカタログ統合の作成SnowflakeとPolarisを使ってIcebergテーブルをクエリする既存のPolarisテーブルをSnowflakeに登録する外部アイスバーグテーブルをクエリするSnowflake Open Catalog（Managed Polaris）を使用するPolarisにバックアップされたテーブルとネイティブSnowflakeテーブルの比較まとめ
9.Apache PolarisをDremioで使用する
DremioをApache Polarisカタログに接続するRESTカタログコネクタを使用してPolarisに接続するSnowflakeのオープンカタログをDremioに接続するなぜUse Vended Credentialsを無効にするのか？Apache PolarisでDremio SQLを使うPolaris経由でIcebergテーブルをクエリするアイスバーグのメタデータテーブルをクエリするDremio経由でPolarisでテーブルとCTASを作成するCopy Intoを使ってファイルからテーブルにデータを追加するDremioでIcebergテーブルをメンテナンスするDremioで最適化を自動化するまとめ
10.Polarisの高度な設定とCLI管理
Polaris CLIを使用するCLIの構造、認証、プロファイルCLIでエンティティを管理する領域を理解する可観測性：メトリック、トレース、ログを記録するMicrometerとPrometheusによるメトリックOpenTelemetryによるトレースQuarkusによるログとデバッグ本番用にPolarisを設定するセキュリティと認証の設定メタストアによる耐久性のあるメタデータデフォルトのハード化と機能フラグの管理スケーリング、同時実行、レート制限本番環境設定の最終決定と検証まとめ
11.Apache Polarisの将来を展望する
マネージドPolarisRESTカタログのエコシステムデータ処理エンジンストリーミングとインジェストプラットフォームその他のデータスタックツールApache Polarisロードマップ汎用テーブルのサポートポリシー・ストアテーブル・メンテナンス・フレームワークSQLとNoSQLの永続性S3互換ストレージサポートカタログUI統合カタログ統合ロールのサポートPolarisイベントリスナーPolarisの非構造化データまとめ
索引
著者紹介

Content preview from Apache Polaris: 決定版ガイド

第2章. Apache Icebergカタログの役割

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

前章で見てきたように、Apache Icebergはデータレイクハウスに強力なテーブル管理機能をもたらし、ACIDトランザクション、スキーマ進化、タイムトラベルなどの機能により、信頼性が高くスケーラブルなデータ演算子を実現する。しかし、Icebergテーブルの可能性を完全に引き出すには、膨大で多様なレイクハウスツールのエコシステム全体でテーブルを管理・整理する方法が必要だ。そこでApache Icebergカタログが登場し、レイクハウスパズルの最後のピースを提供する。

アイスバーグカタログは、レイクハウス環境で増え続けるテーブルを追跡、整理、管理する集中レイヤーとして機能する。異なるツールやフレームワークからテーブルを発見できるようにし、データエンジニア、アナリスト、その他のユーザが、データがどこに存在するかに関係なく、どのテーブルの最新状態にも簡単にアクセスできるようにする。カタログがなければ、大規模データセットをさまざまなクエリエンジンや環境で管理することは、テーブルのメタデータ、バージョン、スキーマの変更を統一的に見ることができず、混沌とし、エラーを起こしやすくなる。

Iceberg カタログは単なる追跡システムではなく、レイクハウス全体のアクセス制御と監査可能性を強化するガバナンスレイヤーを提供する。Iceberg カタログを利用することで、正しいユーザーが正しいデータに正しいアクセスを行えるようにするとともに、規制遵守や運用セキュリティに必要な透明性を確保することができる。この章では、Iceberg カタログがこれらの機能をどのように実現するのかを探り、利用可能なカタログの種類と、多様なカタログオプションに伴う課題を検討する。最後に、あらゆる環境でIcebergテーブルを管理するための柔軟でスケーラブルなアプローチを提供するApache Iceberg REST Catalog仕様について掘り下げる。

Apache Icebergカタログとは何か？

カタログという用語はデータアーキテクチャで長い間使われてきたが、コンテキストによってさまざまなものを指すことがある。Apache Icebergのようなテクノロジーが台頭する前は、「カタログ」という言葉は主にエンタープライズ・メタデータ・カタログを指していた。CollibraやAlationなどのツールは、データコンシューマ（ビジネスユーザ、データアナリスト、データサイエンティスト）が組織全体のデータセットを発見するためのプラットフォームとして機能した。これらのカタログはデータを文書化し、説明、リネージ、アクセスポリシーを提供することで、ユーザが必要なデータを見つけ、そのコンテキストを理解し、データスチュワードやデータ所有者にアクセスをリクエストできるように設計されている。この意味で、エンタープライズ・メタデータ・カタログは、人間がデータを発見し、管理するためのゲートウェイとして機能する。

これとは対照的に、Apache Icebergカタログ（ここではレイクハウスカタログと呼ぶ）は、異なるが同様に重要な目的を果たす。レイクハウスカタログは、エンドユーザがデータセットを発見するためのツールではなく、ユーザが依存するツールのバックボーンとして機能する。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341670006

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apache Polaris: 決定版ガイド

by Alex Merced, Andrew Madson, Tomer Shiran

第2章. Apache Icebergカタログの役割

Apache Icebergカタログとは何か？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.