Apache Hudi: The Definitive Guide
by Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro
1장. Apache Hudi란?
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
직장이 편하다고 해서 데이터 플랫폼에 관한 책을 펼치는 사람은 아무도 없습니다.
데이터 플랫폼 구축은 빠르게 진화하는 오픈 소스 환경에 대한 끊임없는 연구와 수개월 또는 수년에 걸친 고된 아키텍처 튜닝이 필요한 맞춤형 개발과 실험의 문제이기 때문입니다. 이러한 여정을 아무렇지 않게 시작하지 않습니다.
흥미롭게도 대부분의 사람들은 자신의 조직에서 데이터 플랫폼에 대해 잘 알지 못합니다. 그들은 무언가 매우 잘못되었을 때만 데이터 플랫폼에 대해 논의하기 시작합니다.
여러분이 이 책을 읽는 이유는 조직에서 데이터를 사용하는 방식을 개선하고자 하기 때문이라고 가정합니다. 고객이 오래되거나 일관되지 않은 데이터에 대해 불만을 제기하기 시작했을 수도 있습니다. 또는 10년 동안 사용하던 레거시 데이터베이스가 분석 쿼리 부하 또는 새로운 기계 학습 기능으로 인해 흔들리고 있을 수도 있습니다. 데이터 기반 워크로드가 계속 급증하면서 데이터 웨어하우스를 확장하기에는 너무 비싸졌을 수도 있습니다.
이러한 시나리오 중 하나라도 친숙하게 들린다면 이 책이 도움이 될 수 있습니다. 앞의 설명이 공감이 된다면, 조직에 이러한 문제를 해결할 뿐만 아니라 더 빠른 인사이트, 고급 분석, 대규모 데이터 기반 혁신을 위한 새로운 기회를 열어주는 최신 데이터 플랫폼인 데이터 레이크하우스가 필요하기 때문일 것입니다.
레이크하우스 아키텍처는 대용량 데이터의 효율적인 저장, 처리, 분석을 조율하기 위한 최신 기술입니다. Apache Hudi는 데이터 플랫폼 팀이 이 아키텍처 패러다임을 쉽게 구현하고 유지 보수할 수 있도록 지원하는 오픈 소스 기술로서 두각을 나타내고 있습니다.
이 첫 장에서는 데이터 관리 아키텍처의 진화 과정을 살펴봄으로써 레이크하우스 오디세이에 대비할 수 있도록 Uber에서 시작된 Hudi의 기원을 살펴봅니다. Hudi의 주요 기능을 간략히 설명하고, 아키텍처 스택을 자세히 살펴보고, 실제 애플리케이션을 살펴봄으로써 이 책의 나머지 부분에서 다루는 개념에 대한 견고한 기반을 마련할 수 있습니다.
데이터 관리 아키텍처의 진화
스프레드시트와 초보적인 파일 형식의 소박한 시작부터 대규모 분산 시스템까지, 데이터의 양과 다양성, 속도가 폭발적으로 증가하는 시대에 기술 진화의 여정은 레이크하우스에 대한 이야기입니다.
기존의 관계형 데이터베이스는 강력한 일관성과 트랜잭션에 최적화된 구조화된 스토리지를 제공하는 첫 번째 ...