Skip to Content
데이터 파이프라인 포켓 리퍼런스
book

데이터 파이프라인 포켓 리퍼런스

by James Densmore
May 2025
Beginner to intermediate
276 pages
3h 14m
Korean
O'Reilly Media, Inc.
Book available
Content preview from 데이터 파이프라인 포켓 리퍼런스

1장. 데이터 파이프라인 소개

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

모든 멋진 대시보드, 머신러닝 모델, 비즈니스를 변화시키는 인사이트 뒤에는 데이터가 있습니다. 원시 데이터뿐만 아니라 수많은 소스에서 수집된 데이터를 정리, 처리 및 결합하여 가치를 제공해야 합니다. "데이터는 새로운 석유"라는 유명한 문구가 사실임이 입증되었습니다. 석유와 마찬가지로 데이터의 가치는 정제되어 소비자에게 전달된 후에 그 잠재력을 발휘합니다. 또한 석유와 마찬가지로 가치 사슬의 각 단계를 통해 데이터를 전달하려면 효율적인 파이프라인이 필요합니다.

이 포켓 레퍼런스에서는 이러한 데이터 파이프라인이 무엇이며, 최신 데이터 에코시스템에 어떻게 적용되는지 설명합니다. 배치 데이터 수집과 스트리밍 데이터 수집, 도구 구축과 구매 등 파이프라인을 구현할 때 일반적으로 고려해야 할 사항과 주요 의사 결정 사항을 다룹니다. 단일 언어나 플랫폼에 국한된 것은 아니지만, 데이터 전문가가 내리는 가장 일반적인 결정을 다루면서 자체 개발한 솔루션, 오픈 소스 프레임워크, 상용 제품에 적용되는 기본 개념에 대해 논의합니다.

데이터 파이프라인이란 무엇인가요?

데이터 파이프라인은 다양한 소스에서 새로운 가치를 창출할 수 있는 목적지로 데이터를 이동하고 변환하는 일련의 프로세스입니다. 데이터 파이프라인은 분석, 보고 및 머신 러닝 기능의 기반이 됩니다.

데이터 파이프라인의 복잡성은 원본 데이터의 크기, 상태 및 구조와 분석 프로젝트의 요구 사항에 따라 달라집니다. 가장 단순한 형태의 파이프라인은 REST API와 같은 한 소스에서 데이터만 추출하여 데이터 웨어하우스의 SQL 테이블과 같은 대상에 로드할 수 있습니다. 그러나 실제로 파이프라인은 일반적으로 데이터를 최종 목적지로 전달하기 전에 데이터 추출, 데이터 전처리, 데이터 유효성 검사, 때로는 머신 러닝 모델 학습 또는 실행을 포함한 여러 단계로 구성됩니다. 파이프라인에는 여러 시스템과 프로그래밍 언어의 작업이 포함되는 경우가 많습니다. 또한 데이터 팀은 일반적으로 종속성을 공유하고 조율해야 하는 수많은 데이터 파이프라인을 소유하고 유지 관리합니다. 그림 1-1은 간단한 파이프라인을 보여줍니다.

dppr 0101
그림 1-1. 서버 로그 데이터를 S3 버킷으로 로드하고, 몇 가지 기본 처리 및 구조화를 수행한 다음, 그 결과를 Amazon Redshift 데이터베이스에 로드하는 간단한 파이프라인입니다.

데이터 파이프라인은 누가 구축하나요?

Cloud 컴퓨팅과 서비스형 소프트웨어(SaaS)가 대중화되면서 조직이 이해해야 하는 데이터 소스의 수가 폭발적으로 증가했습니다. 동시에 머신 러닝 모델, 데이터 과학 연구, 시간에 민감한 인사이트를 제공하기 위한 데이터에 대한 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark를 사용한 데이터 알고리즘

Spark를 사용한 데이터 알고리즘

Mahmoud Parsian
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

Publisher Resources

ISBN: 9798341654617