book

데이터 파이프라인 포켓 리퍼런스

by James Densmore

May 2025

Beginner to intermediate

276 pages

3h 14m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책의 대상이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
데이터 파이프라인이란 무엇인가요?데이터 파이프라인은 누가 구축하나요?SQL 및 데이터 웨어하우징 기본 사항Python 및/또는 Java분산 컴퓨팅기본 시스템 관리목표 지향적 사고방식왜 데이터 파이프라인을 구축해야 할까요?파이프라인은 어떻게 구축되나요?
데이터 소스의 다양성소스 시스템 소유권수집 인터페이스 및 데이터 구조데이터 볼륨데이터 청결도 및 유효성소스 시스템의 지연 시간 및 대역폭Cloud 데이터 웨어하우스 및 데이터 레이크데이터 수집 도구데이터 변환 및 모델링 도구워크플로 오케스트레이션 플랫폼방향성 비순환 그래프데이터 인프라 사용자 지정
ETL 및 ELTETL을 뛰어넘는 ELT의 등장EtLT 하위 패턴데이터 분석용 ELT데이터 과학을 위한 ELT데이터 제품 및 머신 러닝을 위한 ELT머신 러닝 파이프라인의 단계파이프라인에 피드백 통합하기ML 파이프라인에 대한 추가 자료
Python 환경 설정하기Cloud 파일 스토리지 설정하기MySQL 데이터베이스에서 데이터 추출하기전체 또는 증분 MySQL 테이블 추출MySQL 데이터의 바이너리 로그 복제PostgreSQL 데이터베이스에서 데이터 추출하기전체 또는 증분 포스트그레스 테이블 추출미리 쓰기 로그를 사용하여 데이터 복제하기MongoDB에서 데이터 추출REST API에서 데이터 추출하기Kafka와 De베지움을 이용한 스트리밍 데이터 수집
Amazon Redshift 창고를 대상으로 구성하기Redshift 웨어하우스에 데이터 로드증분 로드와 전체 로드 비교CDC 로그에서 추출한 데이터 로드Snowflake 저장소를 대상으로 구성하기Snowflake 데이터 웨어하우스에 데이터 로드하기파일 스토리지를 데이터 레이크로 사용오픈 소스 프레임워크상업적 대안
비문맥적 변환테이블의 레코드 중복 제거URL 구문 분석언제 변신해야 하나요? 섭취 중 또는 섭취 후?데이터 모델링 기초주요 데이터 모델링 용어완전히 새로 고쳐진 데이터 모델링완전히 새로 고쳐진 데이터를 위한 느리게 변경되는 차원점진적으로 수집되는 데이터 모델링추가 전용 데이터 모델링모델링 변경 캡처 데이터
방향성 비순환 그래프Apache Airflow 설정 및 개요설치 및 구성공기 흐름 데이터베이스웹 서버 및 UI스케줄러실행자연산자공기 흐름 DAG 구축간단한 DAGELT 파이프라인 DAG추가 파이프라인 작업경고 및 알림데이터 유효성 검사고급 오케스트레이션 구성커플링된 파이프라인 작업과 커플링되지 않은 파이프라인 작업DAG를 분할해야 하는 경우센서로 여러 DAG 조정하기관리형 공기 흐름 옵션기타 오케스트레이션 프레임워크
일찍 검증하고 자주 검증하기소스 시스템 데이터 품질데이터 수집 위험데이터 분석가 유효성 검사 활성화간단한 유효성 검사 프레임워크유효성 검사기 프레임워크 코드유효성 검사 테스트의 구조유효성 검사 테스트 실행공기 흐름 DAG에서의 사용파이프라인을 중단해야 할 때, 경고하고 계속해야 할 때프레임워크 확장유효성 검사 테스트 예제수집 후 중복 레코드수집 후 예기치 않은 행 수 변경메트릭 값 변동상용 및 오픈 소스 데이터 검증 프레임워크
소스 시스템의 변경 사항 처리추상화 소개데이터 계약 유지 관리스키마 온 리드의 한계복잡성 확장데이터 수집 표준화데이터 모델 로직 재사용종속성 무결성 보장

주요 파이프라인 지표데이터 웨어하우스 준비데이터 인프라 스키마성능 데이터 로깅 및 수집에어플로우에서 DAG 실행 기록 수집하기데이터 유효성 검사기에 로깅 추가하기성능 데이터 변환DAG 성공률시간 경과에 따른 DAG 런타임 변화검증 테스트 규모 및 성공률성능 파이프라인 오케스트레이션성능 DAG성능 투명성

Content preview from 데이터 파이프라인 포켓 리퍼런스

서문

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

데이터 파이프라인은 데이터 분석과 머신 러닝의 성공을 위한 토대입니다. 수많은 다양한 소스에서 데이터를 이동하고 이를 처리하여 컨텍스트를 제공하는 것은 데이터 보유와 데이터에서 가치를 얻는 것의 차이입니다.

저는 데이터 분석 분야에서 10년 이상 데이터 분석가, 데이터 엔지니어, 리더로 일해 왔습니다. 그 기간 동안 저는 이 분야의 빠른 변화와 성장을 목격했습니다. 특히 Cloud 인프라, 특히 Cloud 데이터 웨어하우스의 등장은 데이터 파이프라인을 설계하고 구현하는 방식을 재고할 기회를 만들었습니다.

이 책은 현대에 데이터 파이프라인을 구축하기 위한 기초와 모범 사례가 무엇이라고 생각하는지 설명합니다. 저는 제 자신의 경험과 제가 알고 따르는 업계 리더들의 경험을 바탕으로 의견과 관찰을 정리했습니다.

제 목표는 이 책이 청사진이자 참고서 역할을 하는 것입니다. 여러분의 조직과 해결하고자 하는 문제에 따라 요구 사항이 다르겠지만, 저는 이러한 기초를 변형하여 여러 번 성공을 거두었습니다. 데이터 조직을 강화하는 데이터 파이프라인을 구축하고 유지 관리하는 여정에서 이 책이 귀중한 자료가 되기를 바랍니다.

이 책의 대상

이 책의 주요 독자는 데이터 파이프라인이 무엇이고 어떻게 구현되는지 이해하고자 하는 현직 및 지망생 데이터 엔지니어와 분석 팀원입니다. 데이터 엔지니어, 기술 책임자, 데이터 웨어하우스 엔지니어, 분석 엔지니어, 비즈니스 인텔리전스 엔지니어, 이사/VP급 분석 리더 등의 직책이 포함됩니다.

데이터 웨어하우징 개념에 대한 기본적인 이해가 있다고 가정합니다. 설명된 예제를 구현하려면 SQL 데이터베이스, REST API 및 JSON에 익숙해야 합니다. Python과 같은 스크립팅 언어에 능숙해야 합니다. Linux 명령줄과 하나 이상의 Cloud 컴퓨팅 플랫폼에 대한 기본 지식도 있으면 좋습니다.

모든 코드 샘플은 Python과 SQL로 작성되었으며 많은 오픈 소스 라이브러리를 활용합니다. 이 책에서 설명하는 기술을 시연하기 위해 Amazon Web Services(AWS)를 사용했으며, 많은 코드 샘플에 AWS 서비스가 사용되었습니다. 가능하면 Microsoft Azure와 Google Cloud Platform(GCP)과 같은 다른 주요 클라우드 제공업체의 유사한 서비스도 참고했습니다. 모든 코드 샘플은 온프레미스뿐만 아니라 원하는 Cloud 제공업체에 맞게 수정할 수 있습니다.

이 책에서 사용된 규칙

이 책에서는 다음과 같은 타이포그래피 규칙이 사용됩니다:

이탤릭체: 새 용어, URL, 이메일 주소, 파일 이름 및 파일 확장자를 표시합니다.
Constant width: 프로그램 목록은 물론 단락 내에서 변수 또는 함수 이름, 데이터베이스, 데이터 유형, 환경 변수, 문, 키워드 등의 프로그램 요소를 참조하는 데 사용됩니다.
Constant width bold: 사용자가 문자 ...