10장. 파이프라인 성능 측정 및 모니터링
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
아무리 잘 설계된 데이터 파이프라인이라도 "설정하고 잊어버리면" 안 됩니다. 파이프라인의 성능을 측정하고 모니터링하는 관행은 필수적입니다. 팀과 이해관계자에게 파이프라인의 신뢰성에 대한 기대치를 설정하고 그에 부응해야 할 의무가 있습니다.
이 장에서는 데이터 팀이 다른 팀에게 제공하지만 의외로 자신에게는 투자하지 않는 작업, 즉 데이터 수집 및 업무 성과 측정에 대한 몇 가지 팁과 모범 사례를 설명합니다.
주요 파이프라인 지표
파이프라인 전체에서 캡처해야 할 데이터를 결정하기 전에 먼저 추적할 메트릭을 결정해야 합니다.
메트릭을 선택하려면 먼저 나와 이해관계자에게 중요한 것이 무엇인지 파악하는 것부터 시작해야 합니다. 몇 가지 예를 들면 다음과 같습니다:
-
실행되는 유효성 검사 테스트 수( 8장 참조) 및 실행된 총 테스트 중 통과된 비율
-
특정 DAG가 성공적으로 실행되는 빈도
-
몇 주, 몇 달, 몇 년 동안의 파이프라인의 총 실행 시간
좋은 소식은 이러한 메트릭을 계산하는 데 필요한 데이터를 수집하는 것이 가능하다는 것입니다. 다음 섹션에서 살펴보겠지만, 이 책의 앞부분에 구축된 인프라에서 직접 이 데이터를 수집할 수 있습니다(특히 Airflow(7장)와 데이터 유효성 검사 프레임워크(8장)를 참조하세요).
데이터 웨어하우스 준비
파이프라인의 성능을 모니터링하고 보고하려면 당연히 그러한 측정에 필요한 데이터를 캡처해야 합니다. 다행히도 데이터 전문가에게는 이를 수행할 수 있는 도구가 바로 앞에 있습니다! 데이터 웨어하우스는 데이터 파이프라인의 각 단계에서 발생하는 로그 데이터를 저장하기에 가장 좋은 장소입니다.
이 섹션에서는 Airflow의 데이터를 저장하는 데 사용할 테이블의 구조와 8장에서 정의한 데이터 유효성 검사 프레임워크에 대해 정의합니다. 이 데이터는 나중에 파이프라인 성능 측정에 필수적인 메트릭을 개발하는 데 사용됩니다.
추적하고 보고할 수 있는 다른 데이터 요소도 많이 있다는 점을 말씀드리고 싶습니다. 이 두 가지 예는 기본 사항을 다루고 있으며 데이터 인프라에 맞는 다른 추적 및 측정에 영감을 줄 수 있기 때문에 마음에 듭니다.
데이터 인프라 스키마
먼저, Airflow에서 DAG 실행 내역을 저장할 테이블이 필요합니다. 7장에서 Airflow는 데이터 파이프라인의 각 단계를 실행하는 데 사용된다는 점을 기억하세요. 또한 각 ...