November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

크리스 하인즈만(Chris Heinzmann)
오늘날 세상에는 너무 많은 데이터가 생성되고 있으며, 발견되기를 기다리는 비즈니스 가치도 많습니다. 데이터 엔지니어가 분석가와 데이터 과학자의 손에 효율적으로 데이터를 전달할 방법은 무엇일까요?
데이터 파이프라인을 시작하세요. 역사적으로 비즈니스의 표준 관행은 ETL 파이프라인을 설정하는 것이었습니다.
추출
소스 시스템에서 데이터를 가져옵니다. 이는 일종의 코드 실행 스케줄러로, 보통 잡job이라고 부릅니다.
변환
어떤 식으로든 데이터를 수정합니다. 이를테면 이름을 일관적으로 만들거나 정확한 타임스탬프를 제공하거나 기초적인 데이터 클렌징을 수행하거나 기준 메트릭을 계산하는 등의 작업이 여기 속합니다.
로드
데이터를 타깃 시스템에 저장합니다. 보통은 데이터 웨어하우스입니다.
ETL 패턴은 여러 해 동안 잘 작동했으며 수천 개의 기업에서 계속 쓰이고 있습니다. 문제가 없다면 고치지 마세요. 그렇지만 전통적인 ETL은 시작하기에 부담스러울 수 있고, 대안도 존재합니다.
아직 제품/시장 적합성을 탐색하는 초기 단계 비즈니스라면 정교한 파이프라인은 포기하세요. 질문이 너무 다양하며 답도 빠르게 얻어야 합니다. 트래픽이 적은 기간 동안에는 프로덕션 데이터에 대한 ...