Skip to Content
데이터 파이프라인 포켓 리퍼런스
book

데이터 파이프라인 포켓 리퍼런스

by James Densmore
May 2025
Beginner to intermediate
276 pages
3h 14m
Korean
O'Reilly Media, Inc.
Book available
Content preview from 데이터 파이프라인 포켓 리퍼런스

10장. 파이프라인 성능 측정 및 모니터링

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

아무리 잘 설계된 데이터 파이프라인이라도 "설정하고 잊어버리면" 안 됩니다. 파이프라인의 성능을 측정하고 모니터링하는 관행은 필수적입니다. 팀과 이해관계자에게 파이프라인의 신뢰성에 대한 기대치를 설정하고 그에 부응해야 할 의무가 있습니다.

이 장에서는 데이터 팀이 다른 팀에게 제공하지만 의외로 자신에게는 투자하지 않는 작업, 즉 데이터 수집 및 업무 성과 측정에 대한 몇 가지 팁과 모범 사례를 설명합니다.

주요 파이프라인 지표

파이프라인 전체에서 캡처해야 할 데이터를 결정하기 전에 먼저 추적할 메트릭을 결정해야 합니다.

메트릭을 선택하려면 먼저 나와 이해관계자에게 중요한 것이 무엇인지 파악하는 것부터 시작해야 합니다. 몇 가지 예를 들면 다음과 같습니다:

  • 실행되는 유효성 검사 테스트 수( 8장 참조) 및 실행된 총 테스트 중 통과된 비율

  • 특정 DAG가 성공적으로 실행되는 빈도

  • 몇 주, 몇 달, 몇 년 동안의 파이프라인의 총 실행 시간

좋은 소식은 이러한 메트릭을 계산하는 데 필요한 데이터를 수집하는 것이 가능하다는 것입니다. 다음 섹션에서 살펴보겠지만, 이 책의 앞부분에 구축된 인프라에서 직접 이 데이터를 수집할 수 있습니다(특히 Airflow(7장)와 데이터 유효성 검사 프레임워크(8장)를 참조하세요).

데이터 웨어하우스 준비

파이프라인의 성능을 모니터링하고 보고하려면 당연히 그러한 측정에 필요한 데이터를 캡처해야 합니다. 다행히도 데이터 전문가에게는 이를 수행할 수 있는 도구가 바로 앞에 있습니다! 데이터 웨어하우스는 데이터 파이프라인의 각 단계에서 발생하는 로그 데이터를 저장하기에 가장 좋은 장소입니다.

이 섹션에서는 Airflow의 데이터를 저장하는 데 사용할 테이블의 구조와 8장에서 정의한 데이터 유효성 검사 프레임워크에 대해 정의합니다. 이 데이터는 나중에 파이프라인 성능 측정에 필수적인 메트릭을 개발하는 데 사용됩니다.

추적하고 보고할 수 있는 다른 데이터 요소도 많이 있다는 점을 말씀드리고 싶습니다. 이 두 가지 예는 기본 사항을 다루고 있으며 데이터 인프라에 맞는 다른 추적 및 측정에 영감을 줄 수 있기 때문에 마음에 듭니다.

데이터 인프라 스키마

먼저, Airflow에서 DAG 실행 내역을 저장할 테이블이 필요합니다. 7장에서 Airflow는 데이터 파이프라인의 각 단계를 실행하는 데 사용된다는 점을 기억하세요. 또한 각 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark를 사용한 데이터 알고리즘

Spark를 사용한 데이터 알고리즘

Mahmoud Parsian
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

Publisher Resources

ISBN: 9798341654617