Skip to Content
Cloud Data Lake
book

Cloud Data Lake

by Rukmani Gopalan
May 2025
Beginner to intermediate
246 pages
4h
Korean
O'Reilly Media, Inc.
Content preview from Cloud Data Lake

6장. 데이터 형식에 대한 심층 분석

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

디자인은 단순히 외형과 느낌만이 아닙니다. 디자인은 작동 방식입니다.

스티브 잡스

전통적으로 데이터 웨어하우스는 쿼리 패턴에 최적화하기 위해 활용하는 독점적인 데이터 형식( )을 기반으로 구축됩니다. 특히 레이크하우스 아키텍처 패턴이 부상하면서 클라우드 데이터 레이크에서 서비스되는 시나리오의 수가 증가함에 따라, 점점 더 많은 고객과 솔루션 제공업체들이 클라우드 데이터 레이크에서 직접 웨어하우스와 같은 쿼리를 실행할 수 있는 기능에 투자하고 있습니다. 이를 통해 특정 목적을 위해 데이터 저장소 간에 데이터를 앞뒤로 복사할 필요성을 최소화하는 아키텍처를 제공하겠다는 약속에 가까워지고 있습니다. 사일로가 없는 데이터 저장소에 대한 이러한 약속으로 인해 Cloud 데이터 레이크 저장소에서 직접 웨어하우스와 같은 쿼리를 실행할 수 있는 개방형 데이터 형식이 점점 더 많아지고 있습니다. 이 장에서는 이러한 형식 중 세 가지를 살펴보겠습니다: Apache Iceberg, Delta Lake, Apache Hudi입니다. 이 장은 이 책에서 가장 기술적인 장으로, 각 포맷이 설계된 시나리오를 어떻게 지원하는지 등 포맷을 매우 상세하게 살펴봅니다. 이 장에서 이러한 형식이 설계된 이유에 대한 충분한 지식을 습득하여 이러한 형식 중 하나를 평가할 때 올바른 질문을 하고 Cloud 데이터 레이크 아키텍처에 적합한 데이터 형식을 찾을 수 있기를 바랍니다.

이러한 오픈 데이터 형식이 필요한 이유는 무엇인가요?

오픈 데이터 형식( )의 필요성을 한 문장으로 요약하자면, 오픈 데이터 형식은 기본적으로 Cloud 데이터 레이크 스토리지에 표 형식 데이터를 저장할 수 있게 해준다고 말할 수 있습니다. 그렇다면 왜 테이블형 데이터를 저장해야 하는가, 그리고 테이블형 데이터를 Cloud 데이터 레이크 스토리지에 저장하는 것이 왜 문제가 되는가라는 두 가지 질문이 생깁니다. 이러한 질문에 대해 자세히 살펴보겠습니다.

표 형식의 데이터를 저장해야 하는 이유는 무엇인가요?

'데이터 형식'에서 Cloud 데이터 레이크에 저장되는 데이터에 대한 주요 가정에 대해 다음과 같이 설명한 바 있습니다:

  • 활발하게 트랜잭션되는 데이터 레이크에 저장된 데이터는 대부분 표 형식(행과 열로 구성된)으로 되어 있습니다.

  • 한 번 쓰여진 데이터는 여러 번 읽혀집니다.

  • 읽기 패턴은 주로 특정 열에 대해 유사한 값을 가진 데이터를 필터링하여 반환하거나 그룹화하기 위해 집계하는 조건부 데이터 선택에 의존합니다.

데이터 레이크에 저장된 데이터가 가장 일반적으로 표 형식인 이유를 살펴보겠습니다. "빅 데이터란 무엇인가요?"의 빅 데이터의 6가지 V에서 설명한 것처럼 빅 데이터 분석 시스템의 데이터는 모든 소스에서 생성될 수 있고 크기와 형식이 다양하지만, 이러한 데이터 자체는 높은 수준의 노이즈로 가득 찬 낮은 가치의 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

The Cloud Data Lake

The Cloud Data Lake

Rukmani Gopalan
Delta Lake: The Definitive Guide

Delta Lake: The Definitive Guide

Denny Lee, Tristen Wentling, Scott Haines, Prashanth Babu

Publisher Resources

ISBN: 9798341655485