book

Apache Hudi: The Definitive Guide

by Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro

October 2025

Beginner to intermediate

290 pages

4h 16m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

데이터 관리 아키텍처의 진화데이터 레이크하우스의 부상Uber의 '트랜잭션 데이터 레이크' 문제Hudi란?Hudi 스택기본 테이블 형식플러그형 테이블 형식저장 엔진프로그래밍 API사용자 액세스공유 플랫폼 컴포넌트실제 환경에서의 Hudi요약
기본 작업테이블 생성레코드 삽입, 업데이트, 삭제 및 가져오기테이블 유형 선택읽기 시 병합 테이블 만들기쓰기 후 MOR 테이블의 레이아웃쓰기 시 복사 대 읽기 시 병합고급 사용법선택 항목으로 테이블 만들기소스 데이터를 테이블에 병합비기록 키 필드를 사용하여 업데이트 및 삭제하기시간 여행 쿼리증분 쿼리요약
쓰기 흐름 분석커밋 시작레코드 준비레코드 파티션스토리지에 쓰기변경 내용 커밋업서트 흐름 요약쓰기 연산 살펴보기테이블 속성 정의INSERT INTO 사용MERGE INTO로 부분 병합 수행삭제 수행파티션 또는 테이블 덮어쓰기주목할 만한 기능 하이라이트키 생성기병합 모드쓰기 시 스키마 진화Bootstrap요약 요약
쿼리 엔진과 통합쿼리 수명 주기데이터 카탈로그Hudi 통합쿼리 유형 살펴보기스냅샷 쿼리시간 여행 쿼리증분 쿼리 최신 상태 모드증분 쿼리: 변경 데이터 캡처 모드주목할 만한 기능 하이라이트스트리밍 읽기읽기 스키마 진화Rust 또는 Python을 사용한 읽기요약
Hudi의 인덱스 개요쓰기를 위한 인덱스 가속범용 멀티모달 인덱싱작성자 측 인덱스작성자 인덱싱 선택 사항 비교읽기를 위한 인덱스 가속데이터 건너뛰기동일성 일치표현식 색인올바른 인덱스 구축요약
테이블 서비스 개요배포 모드 인라인배포 모드: 비동기 실행배포 모드: 독립 실행형적합한 모드 선택압축압축 예약압축 실행클러스터링클러스터링 스케줄클러스터링 실행레이아웃 최적화 전략클러스터링과 압축 비교정리클리닝 예약클리닝 실행인덱싱요약
데이터 레이크하우스에서 동시성 제어가 더 어려운 이유동시성 제어 기법멀티라이터 시나리오멀티라이터가 필요한 이유OCC용 멀티라이터 시나리오NBCC 및 MVCC용 멀티라이터 시나리오간단한 기본값 테이블 서비스가 포함된 단일 라이터Hudi가 동시성 제어를 처리하는 방법Hudi의 동시성 제어의 기초3단계 커밋 프로세스충돌 감지 및 해결잠금 메커니즘멀티라이터 시스템의 과제Hudi에서 멀티라이터 지원 사용멀티라이터 지원 활성화하기잠금 메커니즘 구성하기Hudi 스트리머를 사용하는 멀티라이터Spark 데이터 소스 작성기를 사용하는 멀티라이터단일 작성자 및 다중 테이블 서비스멀티라이터 지원 비활성화하기팁 및 모범 사례파티셔닝 및 파일 그룹화 구현하기조기 충돌 감지 활성화잠금 메커니즘 최적화비동기 테이블 서비스 사용쓰기 충돌 및 리소스 낭비 줄이기여러 쓰기 프로그램 사용 시 데이터 중복 방지요약
알쿠비에르의 데이터 사일로 문제데이터 품질 보증 및 중복 제거이기종 데이터 및 스키마 진화데이터 관리, 로컬라이제이션 및 일관성 유지문제 요약레이크하우스 아키텍처의 구조후디 스트리머란 무엇인가요?Hudi 스트리머 시작하기S3에서 데이터 수집Kafka에서 데이터 수집하기RDBMS에서 데이터 수집실제 Hudi 스트리머업스트림 소스 준비하기Hudi 스트리머 설정하기애널리틱스의 강력한 기능 활용하기Hudi 스트리머 옵션 살펴보기일반 옵션소스 옵션운영 옵션요약
간편한 운영CLI 알아보기테이블 작업 수행플랫폼에 통합하기커밋 후 콜백 트리거하기모니터링 시스템 연결하기카탈로그와 동기화하기성능 튜닝기본 튜닝 원칙쓰기 성능 튜닝읽기 성능 튜닝테이블 서비스 튜닝요약
아키텍처 개요리테일맥스 실제 레이크하우스 시나리오아키텍처 Hudi로 메달리온 구현하기리테일맥스의 Hudi 테이블 구성하기기본 키(hoodie.datasource.write.recordkey.field)사전 결합 키(hoodie.datasource.write.precombine.field)파티션 분할(hoodie.datasource.write.partitionpath.field)테이블 유형(COW 대 MOR)브론즈 레이어: 업스트림 데이터 수집업스트림 데이터 소스 설정Debezium, Flink 및 Hudi를 사용한 변경 가능한 트랜잭션 데이터 스트리밍Kafka Connect Sink로 애플리케이션 이벤트 스트림 수집하기실버 레이어: 파생 데이터 세트 생성리테일맥스를 위한 실버 레이어의 목표Hudi Streamer를 통한 스트림 기반 변환Spark SQL을 사용한 일괄 및 증분 변환실버 레이어에서 데이터 품질 및 일관성 유지골드 레이어: 레이크하우스에서 인사이트 쿼리Trino를 사용한 대화형 분석Spark SQL을 사용한 배치 분석 및 보고고급 쿼리: 시간 여행 및 특정 시점 분석비즈니스 레이어: 리테일맥스를 위한 AI 기반 인사이트골드 레이어에서 AI/머신 러닝을 위한 데이터 준비하기Ray 및 Hudi를 사용한 LLM 기반 애플리케이션을 위한 지식 기반 구축Hudi 레이크하우스 운영 및 최적화하기동시성 제어 및 멀티라이터 시나리오레이크하우스 모니터링재해 복구 및 데이터 복원력성능 벤치마크 및 고려 사항요약

Content preview from Apache Hudi: The Definitive Guide

5장. 인덱싱으로 효율성 달성하기

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

레이크하우스는 쓰기 효율성과 쿼리 성능을 모두 유지하면서 복잡하고 종종 예측할 수 없는 변이 패턴을 가진 페타바이트 규모의 데이터세트를 관리할 수 있어야 합니다. 이러한 시스템은 분산형 스토리지에서 대규모로 운영되며 분석 및 트랜잭션 워크로드를 혼합하여 지원해야 합니다. 이러한 요구 사항을 충족하기 위해 레이크하우스 테이블에는 OLTP 데이터베이스와 유사한 다목적 인덱싱 기능이 필요합니다. 쓰기 경로에서는 새로운 쓰기가 발생할 때 인덱스를 유지 관리해야 하며, 대규모 데이터 세트에서 업데이트 및 삭제를 위해 기존 레코드를 효율적으로 찾는 데 사용해야 합니다. 읽기 경로에서 인덱스는 다양한 쿼리 패턴을 동일한 효율로 처리해야 합니다. 범위 술어는 파일 통계 정리, 동일성 술어는 인덱스 조회, 함수 기반 술어는 특수 표현식 처리의 이점을 누릴 수 있습니다.

이 글을 쓰는 현재, 색인 기능을 기본적으로 지원하는 레이크하우스 스토리지 시스템은 Apache Hudi가 유일합니다. 이 장에서는 Hudi가 인덱싱 기술을 사용하여 대규모 읽기 및 쓰기 작업의 성능을 유지하는 방법에 대해 설명합니다. 또한 인덱싱 전략을 올바르게 수립하는 것이 왜 실시간에 가까운 레이크하우스 성능을 가능하게 하는지에 대해서도 살펴봅니다. 다뤄보겠습니다:

레이크하우스 테이블 인덱싱의 필수 사항과 함께, 리더와 작성기의 인덱싱 기술이 어떻게 성능을 최적화하는지 살펴봅니다.
Hudi 메타데이터 테이블을 통한 멀티모달 인덱싱의 작동 방식과 지원되는 다양한 인덱스 유형에 대해 설명합니다.
스토리지 오버헤드 없이 쓰기 작업을 최적화하도록 특별히 설계된 작성자 측 인덱스와 각 인덱스의 선택 시점에 대한 가이드

이 장이 끝나면 Hudi의 강력하고 다양한 색인 기능을 포괄적으로 이해하게 될 것입니다. 더 중요한 것은 특정 워크로드를 분석하고 성능, 비용, 운영 복잡성 간의 장단점을 신중하게 비교하여 최적의 인덱스를 선택하는 방법을 배우게 된다는 것입니다. Hudi는 분산 스토리지에서 인덱싱을 구현하는 데 따르는 엄청난 엔지니어링 과제를 추상화하여 사용 사례에 가장 적합한 성능을 제공하는 더 높은 수준의 선택에 집중할 수 있도록 해줍니다.

Hudi의 인덱스 개요

Hudi의 인덱스는 크게 두 그룹으로 분류할 수 있습니다. 첫 번째는 메타데이터 테이블 내에 있는 멀티모달 인덱싱 하위 시스템으로, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 0642572273552

Apache Hudi: The Definitive Guide

by Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro

5장. 인덱싱으로 효율성 달성하기

Hudi의 인덱스 개요

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like