Apache Hudi: The Definitive Guide
by Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro
8장. Hudi Streamer를 사용하여 레이크하우스 구축하기
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
현대 조직에서 데이터 사일로는 파편화된 데이터 그 이상을 생성하며, 파편화된 노력을 조장합니다. 비즈니스 전반의 팀들은 종종 동일한 데이터 엔지니어링 문제를 독립적으로 해결하고, 유사한 ETL 도구를 구축하고, 스키마 및 형식에 대한 자체 규칙을 정의합니다. 이러한 중복성은 귀중한 리소스를 낭비할 뿐만 아니라 데이터 공유 및 표준화에 상당한 장벽을 세웁니다. 조직이 이러한 비효율성을 넘어 어떻게 표준화된 도구 세트와 통합 플랫폼을 제공할 수 있을지가 전략적 과제가 됩니다. 어떻게 하면 팀이 공통 데이터 세트, 카탈로그, 모니터링 대시보드를 공유하면서 데이터 수집 및 변환에 대해 협업할 수 있도록 지원할 수 있을까요?
이 과제에 대한 현대적인 해답은 데이터 레이크하우스이며, Apache Hudi는 특히 이를 구축하기 위한 강력한 선택입니다. 조직이 데이터 사일로로 인해 어려움을 겪고 있고 아직 단일 데이터 스토리지 솔루션으로 통합하지 않은 경우, Hudi는 다른 대안보다 더 많은 유연성을 제공합니다. Hudi는 조직의 여러 부서에서 데이터 스택과 아키텍처에 대한 주권을 유지할 수 있을 뿐만 아니라, 다양한 업스트림 소스에 연결하고 데이터 레이크하우스 구축을 간소화할 수 있는 전문 수집 도구인 Hudi Streamer도 제공합니다.
이 장에서는 이러한 일반적인 데이터 사일로 문제를 겪고 있는 가상의 항공 회사인 알쿠비에르를 만나보겠습니다. 알쿠비에르의 데이터 통합 작업을 주도하는 팀의 일원이 되어, 회사의 다양한 소스에서 데이터를 수집하는 데 Hudi Streamer를 어떻게 사용할 수 있는지 살펴보겠습니다. 그런 다음, 엔드투엔드 애플리케이션 예제를 살펴보며 그 과정에서 우리가 가장 좋아하는 레이크하우스 수집 팁과 요령을 공유할 것입니다. 마지막으로, 레이크하우스 플랫폼 구축의 다양한 측면을 지원하는 다양한 옵션을 살펴보면서 Hudi Streamer에 대한 이해를 심화해 보겠습니다.
알쿠비에르의 데이터 사일로 고민
약 10년 전에 설립된 알쿠비에르는 아직 비교적 신생 항공사입니다. 참신한 혜택과 로열티 프로그램을 제공하며 빠르게 시장의 주목을 받았지만, 고객 경험이 좋지 않다는 평판을 얻기 시작했습니다. 이 항공사의 파편화된 데이터 시스템으로 인해 유지보수 관련 비행 지연이 자주 발생하고, 사일로화된 데이터로 인해 장애를 예측하거나 ...