APPENDIX A

                 

직렬화와 압축 기술 상세

 

 

 

 

 

클라우드에서 작업하는 데이터 엔지니어는 일반적으로 객체 스토리지 시스템 관리의 복잡성에서 벗어날 수 있지만, 직렬화와 역직렬화 형식에 대한 세부 사항에 대해서는 이해해야 한다. 6장에서 스토리지 구성 요소에 관해 언급했듯이, 직렬화와 압축 알고리즘은 서로 밀접하게 연관되어 있다.

 

 

A.1 직렬화 형식

 

데이터 엔지니어는 많은 직렬화 알고리즘과 형식을 사용할 수 있다. 풍부한 옵션은 데이터 엔지니어링에서 상당한 골칫거리의 원인이 되기도 하지만, 성능을 개선할 수 있는 엄청난 기회이기도 하다. CSV에서 파케이 직렬화로 전환하는 것만으로도 작업 성능이 100배나 향상하는 것을 본 적도 있다. 데이터가 파이프라인을 통해 이동함에 따라 엔지니어는 한 형식에서 다른 형식으로의 재직렬화 변환도 관리하게 된다. 때때로 데이터 엔지니어는 오래된 지저분한 형식의 데이터를 받아들일 수밖에 없는데, 이러한 형식을 역직렬화하고 예외를 처리하는 프로세스를 설계한 다음, 일관되고 빠른 다운스트림 처리와 소비를 위해 데이터를 정리하고 변환해야 한다.

 

 

A.1.1 행 기반 직렬화

이름에서 알 수 있듯이 행 기반 직렬화row-based serialization는 데이터를 행 단위로 구성한다. CSV 형식은 전형적인 행 기반 형식이다. 반정형 데이터(중첩과 스키마 변형을 지원하는 데이터 객체)의 경우 행 기반 직렬화는 각 객체를 하나의 단위로 저장하는 ...

Get 견고한 데이터 엔지니어링 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.