第2章. Apache Icebergカタログの役割
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
前章で見てきたように、Apache Icebergはデータレイクハウスに強力なテーブル管理機能をもたらし、ACIDトランザクション、スキーマ進化、タイムトラベルなどの機能により、信頼性が高くスケーラブルなデータ演算子を実現する。しかし、Icebergテーブルの可能性を完全に引き出すには、膨大で多様なレイクハウスツールのエコシステム全体でテーブルを管理・整理する方法が必要だ。そこでApache Icebergカタログが登場し、レイクハウスパズルの最後のピースを提供する 。
アイスバーグカタログは、レイクハウス環境で増え続けるテーブルを追跡、整理、管理する集中レイヤーとして機能する。異なるツールやフレームワークからテーブルを発見できるようにし、データエンジニア、アナリスト、その他のユーザが、データがどこに存在するかに関係なく、どのテーブルの最新状態にも簡単にアクセスできるようにする。カタログがなければ、大規模データセットをさまざまなクエリエンジンや環境で管理することは、テーブルのメタデータ、バージョン、スキーマの変更を統一的に見ることができず、混沌とし、エラーを起こしやすくなる。
Iceberg カタログは単なる追跡システムではなく、レイクハウス全体のアクセス制御と監査可能性を 強化するガバナンスレイヤーを提供する。Iceberg カ タ ロ グ を利用す る こ と で、 正 し いユーザーが正 し いデー タ に正 し いア ク セ ス を行え る よ う にす る と と も に、 規制遵守や運用セキ ュ リ テ ィ に必要な透明性を確保す る こ と がで き る。この章では、Iceberg カタログがこれらの機能をどのように実現するのかを探り、利用可能なカタログの種類と、多様なカタログオプショ ンに伴う課題を検討する。最後に、あらゆる環境でIcebergテーブルを管理するための柔軟でスケーラブルなアプローチを提供するApache Iceberg REST Catalog仕様について掘り下げる。
Apache Icebergカタログとは何か?
カタログという用語はデータアーキテクチャで長い間使われてきたが、コンテキストによってさまざまなものを指すことがある。Apache Icebergのようなテクノロジーが台頭する前は、「カタログ」という言葉は主にエンタープライズ・メタデータ・カタログを指していた。CollibraやAlationなどのツールは、データコンシューマ(ビジネスユーザ、データアナリスト、データサイエンティスト)が組織全体のデータセットを発見するためのプラットフォームとして機能した。これらのカタログはデータを文書化し、説明、リネージ、アクセスポリシーを提供することで、ユーザが必要なデータを見つけ、そのコンテキストを理解し、データスチュワードやデータ所有者にアクセスをリクエストできるように設計されている。この意味で、エンタープライズ・メタデータ・カタログは、人間がデータを発見し、管理するためのゲートウェイとして機能する 。
これとは対照的に、Apache Icebergカタログ(ここではレイクハウスカタログと呼ぶ)は、異なるが同様に重要な目的を果たす。レイクハウスカタログは、エンドユーザがデータセットを発見するためのツールではなく、ユーザが依存するツールのバックボーンとして機能する。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access