Skip to Content
데이터 엔지니어를 위한 97가지 조언
book

데이터 엔지니어를 위한 97가지 조언

by Tobias Macey, 임혜연(Lim Hye Yeon)
November 2023
Beginner to intermediate
344 pages
3h 47m
Korean
Gilbut
Content preview from 데이터 엔지니어를 위한 97가지 조언

62 빅데이터 세상의 작은 파일

 

아디 폴락(Adi Polak)

데이터 파이프라인은 실시간 이벤트 기반 스트림이나 실시간에 가까운 데이터, 배치 처리 작업 등 다양한 작업을 처리합니다. 그러나 어떤 작업을 처리하든, 작은 파일로 구성된 방대한 양의 데이터로 작업할 때는 작은 파일의 악몽을 겪게 됩니다.

 

 

¦ 작은 파일은 무엇이며, 왜 문제가 될까요? ¦

작은 파일은 스토리지 블록 크기보다 훨씬 작습니다. 아마존 S3나 애저 블롭Azure Blob 같은 오브젝트 스토리지에도 최소 블록 크기가 있습니다. 스토리지는 블록 크기에 맞춰 최적화되기 때문에 파일 크기가 블록보다 훨씬 작다면 디스크 공간이 낭비됩니다.

디스크 공간이 낭비되는 이유를 이해하기 위해 데이터 읽기와 쓰기가 작동하는 방식을 살펴보겠습니다. 읽기와 쓰기 연산을 할 때는 전용 API를 호출합니다. 쓰기 요청을 받으면 스토리지는 3가지 구성 요소를 기록합니다.

 

데이터 자체

색인 및 데이터 관리 용도로 사용할 설명 속성을 담은 메타데이터

분산 시스템에서 식별하는 데 사용할 전역 고유 식별자

 

저장된 객체가 많을수록 고유 식별자도 늘어나며 메타데이터 및 데이터 파일을 생성하고 기록하고 닫을 때도 추가로 I/O가 발생합니다.

저장된 데이터를 읽으려면 API를 호출해서 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
데브옵스 엔지니어를 위한 실전 관찰 가능성 엔지니어링

데브옵스 엔지니어를 위한 실전 관찰 가능성 엔지니어링

채리티 메이저, 리즈 퐁 존스, 조지 미란다

Publisher Resources

ISBN: 9791140706815