9장. 이벤트 기반 데이터를 저장된데이터에 통합하기
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이벤트 기반 데이터 제품은 소비자에게 탁월한 유연성을 제공하지만 모든 사용 사례에 적합하지 않을 수 있습니다. 기존 시스템과 종속성은 모든 아키텍처에서 큰 역할을 하며, 데이터 메시로 전환하려면 기존 사용 사례를 지원하면서 동시에 점진적인 변화를 촉진해야 합니다. 많은 시스템, 처리 작업, 계산은 특히 분석 영역에서 미사용 데이터에 크게 의존합니다.
이 장에서는 이벤트 기반 데이터를 미사용 데이터에 통합하는 데 중점을 두겠습니다. 메달리온 아키텍처와 최신 데이터 분석 워크플로우에서 메달리온이 하는 역할을 살펴보겠습니다. 이벤트 흐름의 데이터를 저장된 파일 배치로 변환할 시기를 결정하기 위한 전략과 장단점을 살펴볼 것입니다. 마지막으로, 실제 사례를 통해 이론과 실제를 연결해 보겠습니다. 시작해 보겠습니다.
애널리틱스 및 메달리온 아키텍처
변화는 먼저 사용자가 있는 곳에서 사용자를 만나는 것이 가장 효과적입니다. 배치 기반 데이터 분석 파이프라인과 워크플로는 대부분의 산업에서 매우 일반적이며, 많은 조직에서 배치 기반 데이터 엔지니어링, 데이터 과학, 데이터 분석 및 보고 워크플로우에 많은 투자를 해왔습니다. "데이터 제품은 멀티모달이다 "에서 멀티모달 데이터 제품에 대한 개념을 소개했지만, 지금까지는 주로 이벤트 스트림에서 작업해 왔습니다. 운영 및 실시간 분석 사용 사례를 모두 추진하기 위한 최선의 선택인 경우가 많지만, 여전히 배치 중심의 워크플로우와 통합해야 합니다.
그림 9-1은 '데이터 품질 분류'에서 소개한 메달리온 용어를 사용해 데이터 분석 파이프라인의 일반적인 엔드투엔드 배포를 보여줍니다. 일반적으로 데이터 엔지니어는 소스에서 데이터를 추출(E)하고, 준비 영역에 로드(L)한 다음, 필요한 초기 변환(T)을 수행합니다(ELT 프로세스). 그런 다음 이 브론즈 데이터는 다음 단계의 파이프라인에 공급되어 데이터를 추가로 정리하고 표준화하여 더 높은 품질의 실버 데이터 형식으로 구성합니다.
그림 9-1. 여러 팀에 걸쳐 있는 일반적인 배치 데이터 처리 워크플로
실버 데이터는 추가 처리 과정을 거쳐 최고 수준의 품질을 나타내는 골드 데이터 집합으로 통합될 수 있으며, 대부분 단일 비즈니스 기능을 지원하기 위해 구축됩니다. 또한 다른 사람들이 사용할 수 있는 메달리온 등급 데이터 세트에 포함되지 않은 비즈니스 관련 집계를 구축하는 데 그대로 사용할 수도 있습니다.
데이터 분석가는 잘 모델링된 실버 및 골드 데이터(SLA 및 지원과 함께)에 의존하여 비즈니스 인텔리전스(BI) 및 분석 도구로 데이터를 수집합니다. 여기에서 분석을 수행하고, 보고서를 작성하며, 데이터 ...