1장. Data Lakehouse와 Apache Iceberg
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
조직은 방대한 양의 정보를 생성하고 있으며, 이러한 데이터를 효율적으로 저장, 관리, 분석하는 것이 매우 중요해졌습니다. 데이터의 양과 다양성으로 인해 접근성 보장부터 대규모 성능 유지 보수성까지 고유한 과제가 발생합니다. 바로 이 점에서 최신 데이터 아키텍처가 중요한 역할을 합니다. 오픈 소스 데이터 레이크하우스 카탈로그인 Apache Polaris의 가치를 완전히 이해하려면 먼저 데이터 레이크하우스 개념의 기원과 확장 가능한 고성능 데이터 관리를 가능하게 하는 Apache Iceberg의 역할을 이해하는 것이 중요합니다.
이 장에서는 레이크하우스 아키텍처의 진화를 이끈 최신 데이터 과제를 살펴보는 것으로 시작하여 이러한 개념의 토대를 마련하는 것을 목표로 합니다. 그런 다음, Cloud 데이터 시대를 위해 설계된 테이블 형식인 Apache Iceberg를 중심으로 데이터 관리를 간소화하고 시스템 전반의 일관성을 보장하는 테이블 형식의 역할에 대해 자세히 살펴봅니다. 이 장이 끝나면 확장 가능하고 관리 가능하며 비용 효율적인 데이터 솔루션을 만드는 데 있어 데이터 레이크하우스와 Iceberg의 중추적인 역할을 확실히 이해하게 될 것이며, Apache Polaris의 고유한 기여에 대해 자세히 알아볼 수 있는 기반을 마련하게 될 것입니다.
현대의 데이터 과제
디지털 시대에 데이터가 폭발적으로 증가하면서 대규모 분석을 처리하는 데 최적화된 시스템이 필요해졌습니다. 트랜잭션 처리를 위해 설계된 기존의 데이터베이스는 최신 분석 워크로드의 요구 사항을 충족할 수 없었습니다. 이로 인해 구조화된 데이터 쿼리를 위한 고성능을 제공하도록 특별히 설계된 시스템인 데이터 웨어하우스가 부상하게 되었습니다. 시간이 지남에 따라 조직에서 더욱 다양한 형태의 데이터를 저장하고 분석해야 하는 필요성이 대두되면서, 방대한 양의 정형, 반정형, 비정형 데이터를 보다 저렴한 비용으로 저장할 수 있는 데이터 레이크가 해결책으로 떠올랐습니다.
하지만 데이터 양이 페타바이트급으로 급증하면서 데이터 웨어하우스와 데이터 레이크 모두 한계를 드러내기 시작했습니다. 데이터 웨어하우스는 강력하지만 스토리지 비용이 높고 비정형 데이터를 처리하는 데 필요한 유연성이 부족했습니다. 반면, 데이터 레이크는 유연성과 확장성은 뛰어나지만 실시간 분석에 필요한 속도와 안정성을 제공하는 데 있어서는 성능 문제가 있었습니다.
Cloud 기반 배포를 통해 조직은 인프라를 보다 유연하고 비용 효율적으로 확장할 수 있게 되면서 더 큰 혁신을 이루었습니다. 또한 분석에 최적화된 파일 형식인 Apache Parquet과 ORC(최적화된 행 열 형식)의 등장으로 대규모 쿼리 워크로드에 더 적합한 스토리지 형식이 등장하여 데이터 처리 효율성이 향상되었습니다.
하지만 이러한 발전에도 불구하고 데이터 레이크의 유연성 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access