book

Apache Polaris: The Definitive Guide

Name: Apache Polaris: The Definitive Guide
ISBN: 9798341670013

by Alex Merced, Andrew Madson, Tomer Shiran

September 2025

Beginner to intermediate

258 pages

3h 47m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

머리말
서문
이 책에서 사용된 규칙코드 예제 사용하기오라일리 온라인 학습문의 방법감사의 글
I. 데이터 레이크하우스와 Apache Iceberg 기초
1. 데이터 레이크하우스와 Apache 빙산
최신 데이터 과제데이터 웨어하우스의 세계데이터 레이크와 함께 앞으로 나아가기Cloud 혁명Apache Parquet을 사용한 파일 기반 분석데이터 레이크하우스 솔루션데이터 레이크하우스의 주요 이점앞으로 나아갈 길 데이터 레이크하우스 테이블 형식테이블 형식의 역할테이블 형식의 이점기존 테이블 포맷Apache 빙산Apache Iceberg란?메타데이터 파일(metadata.json)매니페스트 목록매니페스트 파일데이터 파일파일 삭제결론
2. Apache Iceberg 카탈로그의 역할
Apache Iceberg 카탈로그는 무엇이고 무엇이 아닌가?Apache Iceberg 카탈로그의 메커니즘Apache Iceberg 카탈로그의 유형파일시스템 카탈로그서비스 카탈로그다양한 카탈로그 옵션의 문제점클라이언트 측 복잡성구성 문제권한 부여 문제통합 접근 방식의 필요성Apache Iceberg REST 카탈로그 사양REST 카탈로그 사양의 주요 이점REST 카탈로그 구현의 진화Apache PolarisApache Polaris의 탄생Polaris: 폴라리스: 레이크하우스 카탈로그의 새로운 시대결론
II. Apache Polaris
3. Apache Polaris 보안 모델
폴라리스란 무엇인가요?카탈로그Polaris 카탈로그의 주요 기능다중 카탈로그 아키텍처의 이점Principals프린트란 무엇인가요?주요 관리주요 수명 주기카탈로그 역할카탈로그 역할에서 권한 정의하기대표자에게 카탈로그 역할 할당하기카탈로그 역할에 대한 모범 사례주요 역할대표 역할이란 무엇인가요?대표 역할의 이점주요 역할에 대한 모범 사례폴라리스 보안 모범 사례멀티테넌트 환경팀 간 협업규정 준수 및 민감한 데이터 거버넌스Cloud 네이티브 배포결론
4. 외부 카탈로그
NessieNessie가 특별한 이유는 무엇인가요?폴라리스와 함께 Nessie를 사용해야 하는 이유예시: Nessie와 Polaris의 실제 사용Gravitino그라비티노가 특별한 이유는 무엇인가요?왜 폴라리스와 함께 그래비티노를 사용해야 하나요?예시: 분산 메타데이터 거버넌스레이크키퍼레이크키퍼가 특별한 이유는 무엇인가요?왜 폴라리스와 함께 레이크키퍼를 사용해야 하나요?예시: 멀티-테넌트 메타데이터 거버넌스AWS 글루왜 AWS Glue 카탈로그를 사용해야 하나요?왜 폴라리스와 함께 Glue를 사용해야 하나요?예시 하이브리드 팀 협업결론
5. Polaris REST API
카탈로그 운영카탈로그 목록카탈로그 생성카탈로그 세부 정보 가져오기카탈로그 업데이트카탈로그 삭제주요 운영교장 목록교장 만들기담당자 세부 정보 가져오기학교장 업데이트학교장 삭제대표 자격 증명 회전역할 관리카탈로그 역할 만들기담당자 역할 만들기카탈로그 역할 목록학교장에게 할당된 역할 목록모든 학교장 역할 나열학교장 역할에 할당된 학교장 나열하기대표 역할에 매핑된 카탈로그 역할 가져오기담당자 역할의 세부 정보 가져오기카탈로그 역할에 부여 추가카탈로그 역할에서 부여 취소하기대표 역할에 카탈로그 역할 할당하기학교장에게 역할 할당하기담당자 역할 업데이트팀원으로부터 역할 취소담당자 역할에서 카탈로그 역할 취소하기담당자 역할 삭제카탈로그 역할 삭제Apache Iceberg REST 카탈로그 엔드포인트구성 APIOAuth2 API테이블 API보기 API결론
III. Apache Polaris 실습하기

6. Apache Polaris OSS로 작업하기
Docker로 로컬 배포하기전제 조건1단계: 리포지토리 복제하기2단계: 환경 변수 구성3단계: Docker 작성 파일 이해하기4단계: 환경 시작하기5단계: 환경 중지하기카탈로그 만들기카탈로그를 생성해야 하는 시기카탈로그 역할 만들기카탈로그 역할을 생성해야 하는 시기Principal 만들기프라이머리 역할 생성하기주요 역할을 만들어야 하는 시기카탈로그 역할을 Principal 역할에 할당하고 카탈로그에 대한 권한 설정하기요약
7. Apache Polaris와 Apache Spark 사용
Apache Polaris 카탈로그를 Apache Spark에 연결하기Apache Polaris와 함께 Spark 데이터 프레임 API 사용(인큐베이팅)테이블 만들기테이블 쿼리하기테이블 업데이트행 삭제데이터 추가메타데이터 테이블 읽기Apache Polaris와 함께 SparkSQL 사용테이블 만들기테이블 쿼리데이터 삽입데이터 업데이트데이터 삭제데이터 병합메타데이터 테이블 읽기시간 여행 쿼리Apache Polaris와 함께 Spark 스트리밍 사용Polaris로 Spark 스트리밍 설정하기폴라리스에서 스트리밍 읽기폴라리스에 대한 스트리밍 쓰기삭제 및 덮어쓰기 처리하기파티션 테이블 사용스트리밍 테이블 유지 관리하기결론
8. Snowflake와 함께 Apache Polaris 사용하기
스노우플레이크와 폴라리스 간 연결 설정하기외부 볼륨 구성하기Polaris 카탈로그 통합 생성하기스노우플레이크와 폴라리스에서 빙산 테이블 쿼리하기Snowflake에 기존 Polaris 테이블 등록하기외부 빙산 테이블 쿼리하기Snowflake 오픈 카탈로그 사용(관리형 폴라리스)폴라리스 지원 테이블과 네이티브 스노우플레이크 테이블 비교결론
9. Dremio와 함께 Apache Polaris 사용하기
Dremio를 Apache Polaris 카탈로그에 연결하기REST 카탈로그 커넥터를 사용하여 Polaris 연결하기Snowflake의 오픈 카탈로그를 Dremio에 연결하기벤더 자격 증명 사용을 비활성화하는 이유는 무엇인가요?Apache Polaris와 함께 Dremio SQL 사용하기폴라리스에서 아이스버그 테이블 쿼리하기Iceberg 메타데이터 테이블 쿼리하기Dremio를 통해 Polaris에서 테이블 및 CTAS 만들기다음에 복사를 사용하여 파일에서 테이블로 데이터 추가하기Dremio로 빙산 테이블 유지 관리하기Dremio로 최적화 자동화하기결론
10. 고급 Polaris 구성 및 CLI 관리
Polaris CLI 사용CLI 구조, 인증 및 자질CLI로 엔티티 관리하기영역 이해관찰 가능성: 메트릭, 추적 및 로깅Micrometer 및 Prometheus를 사용한 메트릭OpenTelemetry를 사용한 추적Quarkus를 사용한 로깅 및 디버깅프로덕션을 위한 Polaris 구성보안 및 인증 구성메타스토어를 사용한 내구성 있는 메타데이터기본값 강화 및 기능 플래그 관리확장, 동시성 및 속도 제한프로덕션 설정 마무리 및 확인결론
11. Apache Polaris의 미래 전망 11.
관리형 폴라리스REST 카탈로그 에코시스템데이터 처리 엔진스트리밍 및 수집 플랫폼기타 데이터 스택 도구Apache Polaris 로드맵일반 테이블 지원정책 저장소테이블 유지 관리 프레임워크SQL 및 NoSQL 지속성S3 호환 스토리지 지원카탈로그 UI페더레이션 카탈로그페더레이션 역할 지원Polaris 이벤트 리스너Polaris의 비정형 데이터결론
색인
저자 소개

Content preview from Apache Polaris: The Definitive Guide

1장. Data Lakehouse와 Apache Iceberg

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

조직은 방대한 양의 정보를 생성하고 있으며, 이러한 데이터를 효율적으로 저장, 관리, 분석하는 것이 매우 중요해졌습니다. 데이터의 양과 다양성으로 인해 접근성 보장부터 대규모 성능 유지 보수성까지 고유한 과제가 발생합니다. 바로 이 점에서 최신 데이터 아키텍처가 중요한 역할을 합니다. 오픈 소스 데이터 레이크하우스 카탈로그인 Apache Polaris의 가치를 완전히 이해하려면 먼저 데이터 레이크하우스 개념의 기원과 확장 가능한 고성능 데이터 관리를 가능하게 하는 Apache Iceberg의 역할을 이해하는 것이 중요합니다.

이 장에서는 레이크하우스 아키텍처의 진화를 이끈 최신 데이터 과제를 살펴보는 것으로 시작하여 이러한 개념의 토대를 마련하는 것을 목표로 합니다. 그런 다음, Cloud 데이터 시대를 위해 설계된 테이블 형식인 Apache Iceberg를 중심으로 데이터 관리를 간소화하고 시스템 전반의 일관성을 보장하는 테이블 형식의 역할에 대해 자세히 살펴봅니다. 이 장이 끝나면 확장 가능하고 관리 가능하며 비용 효율적인 데이터 솔루션을 만드는 데 있어 데이터 레이크하우스와 Iceberg의 중추적인 역할을 확실히 이해하게 될 것이며, Apache Polaris의 고유한 기여에 대해 자세히 알아볼 수 있는 기반을 마련하게 될 것입니다.

현대의 데이터 과제

디지털 시대에 데이터가 폭발적으로 증가하면서 대규모 분석을 처리하는 데 최적화된 시스템이 필요해졌습니다. 트랜잭션 처리를 위해 설계된 기존의 데이터베이스는 최신 분석 워크로드의 요구 사항을 충족할 수 없었습니다. 이로 인해 구조화된 데이터 쿼리를 위한 고성능을 제공하도록 특별히 설계된 시스템인 데이터 웨어하우스가 부상하게 되었습니다. 시간이 지남에 따라 조직에서 더욱 다양한 형태의 데이터를 저장하고 분석해야 하는 필요성이 대두되면서, 방대한 양의 정형, 반정형, 비정형 데이터를 보다 저렴한 비용으로 저장할 수 있는 데이터 레이크가 해결책으로 떠올랐습니다.

하지만 데이터 양이 페타바이트급으로 급증하면서 데이터 웨어하우스와 데이터 레이크 모두 한계를 드러내기 시작했습니다. 데이터 웨어하우스는 강력하지만 스토리지 비용이 높고 비정형 데이터를 처리하는 데 필요한 유연성이 부족했습니다. 반면, 데이터 레이크는 유연성과 확장성은 뛰어나지만 실시간 분석에 필요한 속도와 안정성을 제공하는 데 있어서는 성능 문제가 있었습니다.

Cloud 기반 배포를 통해 조직은 인프라를 보다 유연하고 비용 효율적으로 확장할 수 있게 되면서 더 큰 혁신을 이루었습니다. 또한 분석에 최적화된 파일 형식인 Apache Parquet과 ORC(최적화된 행 열 형식)의 등장으로 대규모 쿼리 워크로드에 더 적합한 스토리지 형식이 등장하여 데이터 처리 효율성이 향상되었습니다.

하지만 이러한 발전에도 불구하고 데이터 레이크의 유연성 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341670013

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apache Polaris: The Definitive Guide

by Alex Merced, Andrew Madson, Tomer Shiran

1장. Data Lakehouse와 Apache Iceberg

현대의 데이터 과제

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.