3장. 데이터 오케스트레이션
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이미 수집(E, L) 과 변환(T)에 대해 논의했지만, 이는 ETL의 표면적인 부분만 설명한 것입니다. 데이터 파이프라인을 일련의 개별 단계로 보는 것과는 달리, 데이터 엔지니어링의 기초에서 Matt Housley와 Joe Reis가 '저류'라고 적절하게 명명한 메타 수준에서 작동하는 중요한 메커니즘이 존재합니다:
-
보안
-
데이터 관리
-
데이터 운영(DataOps)
-
데이터 아키텍처
-
데이터 오케스트레이션
-
소프트웨어 엔지니어링
이 장에서는 종속성 관리와 파이프라인 오케스트레이션을 살펴보고, 오늘날 특정 오케스트레이션 방법이 인기 있는 이유를 이해하는 데 중요한 오케스트레이터의 역사를 다룹니다. 자체 데이터 워크플로를 오케스트레이션할 수 있는 옵션 메뉴를 제시하고 오케스트레이션의 몇 가지 일반적인 디자인 패턴에 대해 논의할 것입니다.
역사적으로 '오케스트레이터'가 '변환' 도구와 어떻게 분리되어 왔는지에 대해서도 논의할 것입니다. 왜 이것이 사실이었으며 앞으로는 그렇지 않을 수도 있지만, 여전히 별도의 오케스트레이터가 선호되는 접근 방식이라고 생각하는 이유에 대해서도 다룰 것입니다.
데이터 오케스트레이션이란 무엇인가요?
데이터든 아니든 모든 워크플로우에는 순차적인 단계가 필요합니다. 물을 데우지 않고 프렌치 프레스를 사용하려고 하면 실망스러운 결과를 낳을 뿐이고, 잘못된 데이터 변환은 카페인이 부족한 아침보다 훨씬 더 쓴 폭풍을 일으킬 수 있습니다(카페인이 없는 아침의 고통을 사소하게 생각해서는 안 되지만). 데이터에서 이러한 '단계'는 종종 작업 및 '워크플로', 또는 곧 자세히 살펴보게 될 용어인 방향성 비순환 그래프(DAG)라고 불립니다.
오케스트레이션은 자동화를 통해 촉진되는 종속성 관리 프로세스입니다. 데이터 오케스트레이터는 스케줄링, 트리거링, 모니터링, 심지어 리소스 할당까지 관리합니다. 오케스트레이터는 전적으로 크론 기반인 스케줄러와는 확연히 다릅니다. 반면에 오케스트레이터는 이벤트, 웹후크, 일정, 심지어 워크플로우 내 종속성까지 트리거할 수 있습니다. 데이터 오케스트레이션은 다양한 소스의 대규모 데이터를 처리할 수 있는 구조화되고 자동화된 효율적인 방법을 제공합니다.
오케스트레이션은 무엇보다도 파이프라인이 정확하고 시기적절한 결과를 생성하도록 보장하는 것입니다. 좋은 오케스트레이터는 효율성, 확장성, 속도에도 중점을 두어야 하지만, 곧 설명하겠지만, 작업은 대부분 오케스트레이터 외부에서 이루어집니다.
왜 오케스트레이션인가?
오케스트레이션은 워크플로우를 효율성과 기능 중심으로 조정하며, 오케스트레이터는 이러한 워크플로우를 가능하게 하는 도구 역할을 합니다. 일반적으로 오케스트레이터는 일정이나 특정 이벤트에 따라 파이프라인을 트리거합니다. 이벤트 기반 파이프라인은 예측할 수 없는 데이터나 리소스 집약적인 작업을 처리하는 데 유용합니다. 다음은 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access