서문
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
데이터 파이프라인은 데이터 분석과 머신 러닝의 성공을 위한 토대입니다. 수많은 다양한 소스에서 데이터를 이동하고 이를 처리하여 컨텍스트를 제공하는 것은 데이터 보유와 데이터에서 가치를 얻는 것의 차이입니다.
저는 데이터 분석 분야에서 10년 이상 데이터 분석가, 데이터 엔지니어, 리더로 일해 왔습니다. 그 기간 동안 저는 이 분야의 빠른 변화와 성장을 목격했습니다. 특히 Cloud 인프라, 특히 Cloud 데이터 웨어하우스의 등장은 데이터 파이프라인을 설계하고 구현하는 방식을 재고할 기회를 만들었습니다.
이 책은 현대에 데이터 파이프라인을 구축하기 위한 기초와 모범 사례가 무엇이라고 생각하는지 설명합니다. 저는 제 자신의 경험과 제가 알고 따르는 업계 리더들의 경험을 바탕으로 의견과 관찰을 정리했습니다.
제 목표는 이 책이 청사진이자 참고서 역할을 하는 것입니다. 여러분의 조직과 해결하고자 하는 문제에 따라 요구 사항이 다르겠지만, 저는 이러한 기초를 변형하여 여러 번 성공을 거두었습니다. 데이터 조직을 강화하는 데이터 파이프라인을 구축하고 유지 관리하는 여정에서 이 책이 귀중한 자료가 되기를 바랍니다.
이 책의 대상
이 책의 주요 독자는 데이터 파이프라인이 무엇이고 어떻게 구현되는지 이해하고자 하는 현직 및 지망생 데이터 엔지니어와 분석 팀원입니다. 데이터 엔지니어, 기술 책임자, 데이터 웨어하우스 엔지니어, 분석 엔지니어, 비즈니스 인텔리전스 엔지니어, 이사/VP급 분석 리더 등의 직책이 포함됩니다.
데이터 웨어하우징 개념에 대한 기본적인 이해가 있다고 가정합니다. 설명된 예제를 구현하려면 SQL 데이터베이스, REST API 및 JSON에 익숙해야 합니다. Python과 같은 스크립팅 언어에 능숙해야 합니다. Linux 명령줄과 하나 이상의 Cloud 컴퓨팅 플랫폼에 대한 기본 지식도 있으면 좋습니다.
모든 코드 샘플은 Python과 SQL로 작성되었으며 많은 오픈 소스 라이브러리를 활용합니다. 이 책에서 설명하는 기술을 시연하기 위해 Amazon Web Services(AWS)를 사용했으며, 많은 코드 샘플에 AWS 서비스가 사용되었습니다. 가능하면 Microsoft Azure와 Google Cloud Platform(GCP)과 같은 다른 주요 클라우드 제공업체의 유사한 서비스도 참고했습니다. 모든 코드 샘플은 온프레미스뿐만 아니라 원하는 Cloud 제공업체에 맞게 수정할 수 있습니다.
이 책에서 사용된 규칙
이 책에서는 다음과 같은 타이포그래피 규칙이 사용됩니다:
- 이탤릭체
-
새 용어, URL, 이메일 주소, 파일 이름 및 파일 확장자를 표시합니다.
Constant width-
프로그램 목록은 물론 단락 내에서 변수 또는 함수 이름, 데이터베이스, 데이터 유형, 환경 변수, 문, 키워드 등의 프로그램 요소를 참조하는 데 사용됩니다.
Constant width bold-
사용자가 문자 ...