Skip to Content
데이터 파이프라인 포켓 리퍼런스
book

데이터 파이프라인 포켓 리퍼런스

by James Densmore
May 2025
Beginner to intermediate
276 pages
3h 14m
Korean
O'Reilly Media, Inc.
Book available
Content preview from 데이터 파이프라인 포켓 리퍼런스

3장. 일반적인 데이터 파이프라인 패턴

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

숙련된 데이터 엔지니어에게도 새로운 데이터 파이프라인을 설계하는 것은 매번 새로운 여정입니다. 2장에서 설명한 대로, 서로 다른 데이터 원본과 인프라는 도전 과제와 기회를 모두 제시합니다. 또한 파이프라인은 각기 다른 목표와 제약 조건으로 구축됩니다. 데이터가 거의 실시간으로 처리되어야 하나요? 매일 업데이트할 수 있나요? 대시보드에 사용하거나 머신 러닝 모델의 입력으로 사용하기 위해 모델링할 것인가?

다행히도 데이터 파이프라인에는 성공적임이 입증된 몇 가지 일반적인 패턴이 있으며 많은 사용 사례로 확장할 수 있습니다. 이 장에서는 이러한 패턴을 정의하겠습니다. 이후 장에서는 이러한 패턴을 기반으로 구축된 파이프라인을 구현합니다.

ETL 및 ELT

ETL과 그 최신 버전인 ELT보다 더 잘 알려진 패턴은 없을 것입니다. 두 가지 모두 데이터 웨어하우징과 비즈니스 인텔리전스에서 널리 사용되는 패턴입니다. 최근에는 프로덕션 환경에서 실행되는 데이터 과학 및 머신 러닝 모델을 위한 파이프라인 패턴에 영감을 주기도 했습니다. 너무 잘 알려져 있어서 많은 사람들이 많은 파이프라인이 따르는 패턴이라기보다는 데이터 파이프라인과 동의어로 이 두 용어를 사용합니다.

데이터 웨어하우징에 뿌리를 두고 있기 때문에 이 섹션에서는 이러한 맥락에서 설명하는 것이 가장 쉽습니다. 이 장의 뒷부분에서는 특정 사용 사례에 어떻게 사용되는지 설명합니다.

두 패턴 모두 데이터를 데이터 웨어하우스에 공급하여 분석가 및 보고 도구에 유용하게 만드는 데 사용되는 데이터 처리 방식입니다. 두 패턴의 차이점은 마지막 두 단계(변환 및 로드)의 순서이지만, 이 장에서 설명하듯이 두 패턴 중 하나를 선택할 때 설계에 미치는 영향은 상당합니다. 먼저 ETL과 ELT의 단계를 살펴보겠습니다.

추출 단계에서는 로드 및 변환을 준비하기 위해 다양한 소스에서 데이터를 수집합니다. 2장에서는 이러한 소스의 다양성과 추출 방법에 대해 설명했습니다.

로드 단계에서는 원시 데이터(ELT의 경우) 또는 완전히 변환된 데이터(ETL의 경우)를 최종 대상으로 가져옵니다. 어느 쪽이든 최종 결과는 데이터 웨어하우스, 데이터 레이크 또는 기타 대상에 데이터를 로드하는 것입니다.

변환 단계에서는 각 소스 시스템의 원시 데이터를 결합하고 분석가, 시각화 도구 또는 파이프라인이 제공하는 모든 사용 사례에 유용한 방식으로 포맷을 지정합니다. 프로세스를 ETL로 설계하든 ELT로 설계하든 관계없이 이 단계에는 많은 것이 있으며, 이 모든 것은 6장에서 자세히 설명합니다.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark를 사용한 데이터 알고리즘

Spark를 사용한 데이터 알고리즘

Mahmoud Parsian
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

Publisher Resources

ISBN: 9798341654617