3장. 데이터 오케스트레이션
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이미 수집(E, L) 과 변환(T)에 대해 논의했지만, 이는 ETL의 표면적인 부분만 설명한 것입니다. 데이터 파이프라인을 일련의 개별 단계로 보는 것과는 달리, 데이터 엔지니어링의 기초에서 Matt Housley와 Joe Reis가 '저류'라고 적절하게 명명한 메타 수준에서 작동하는 중요한 메커니즘이 존재합니다:
-
보안
-
데이터 관리
-
데이터 작업(DataOps)
-
데이터 아키텍처
-
데이터 오케스트레이션
-
소프트웨어 엔지니어링
이 장에서는 종속성 관리와 파이프라인 오케스트레이션에 대해 살펴보고, 오늘날 특정 오케스트레이션 방법이 인기 있는 이유를 이해하는 데 중요한 오케스트레이터의 역사에 대해 알아보겠습니다. 자체 데이터 워크플로를 오케스트레이션할 수 있는 옵션 메뉴를 제시하고 오케스트레이션의 몇 가지 일반적인 디자인 패턴에 대해 논의할 것입니다.
이 글에서는 역사적으로 '오케스트레이터'가 '변환' 도구와 어떻게 분리되어 왔는지에 대해 논의할 것입니다. 왜 이것이 사실이었으며 앞으로는 그렇지 않을 수도 있지만, 여전히 별도의 오케스트레이터가 선호되는 접근 방식이라고 생각하는 이유에 대해 다룰 것입니다.
데이터 오케스트레이션이란 무엇인가요?
데이터든 아니든 모든 워크플로우에는 순차적인 단계가 필요합니다. 물을 데우지 않고 프렌치 프레스를 사용하려고 하면 실망만 불러일으키고, 잘못된 순서로 데이터를 변환하면 카페인이 부족한 아침보다 훨씬 더 괴로운 폭풍이 몰아칠 수 있습니다(디카페인의 고통은 사소하게 여기지 말아야 합니다). 데이터에서 이러한 '단계'는 종종 작업 및 '워크플로우', 또는 곧 자세히 살펴보게 될 용어인 방향성 비순환 그래프(DAG)라고 불립니다.
오케스트레이션은 자동화를 통해 촉진되는 종속성 관리 프로세스입니다. 데이터 오케스트레이터는 스케줄링, 트리거링, 모니터링, 심지어 리소스 할당까지 관리합니다. 오케스트레이터는 전적으로 크론 기반인 스케줄러와는 확연히 다릅니다. 반면에 오케스트레이터는 이벤트, 웹후크, 일정, 심지어 워크플로우 내 종속성까지 트리거할 수 있습니다. 데이터 오케스트레이션은 다양한 소스의 대규모 데이터를 처리할 수 있는 구조화되고 자동화된 효율적인 방법을 제공합니다.
오케스트레이션은 무엇보다도 파이프라인이 정확하고 시기적절한 결과를 생성하도록 하는 것입니다. 좋은 오케스트레이터는 효율성, 확장성, 속도에도 중점을 두어야 하지만, 곧 설명하겠지만 작업은 대부분 오케스트레이터 외부에서 이루어집니다.
왜 오케스트레이트인가요?
오케스트레이션은 워크플로우를 효율성과 기능 중심으로 조정하며, 오케스트레이터는 이러한 워크플로우를 가능하게 하는 도구 역할을 합니다. 일반적으로 오케스트레이터는 일정이나 특정 이벤트에 따라 파이프라인을 트리거합니다. 이벤트 기반 파이프라인은 예측할 수 없는 데이터나 리소스 집약적인 작업을 처리하는 데 유용합니다. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access