November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

에밀리 리더러(Emily Riederer)
다음 중 적절하지 않은 숫자는 무엇입니까? -1, 0, 1, NA.
상황에 따라 답이 달라질 수 있습니다. 질문의 데이터가 음수여서는 안 된다면 -1이 잘못된 값입니다. 항상 값이 있어야 한다면 NA가 잘못된 값입니다. 합계에 사용될 부호를 표현하는 것이라면 0이 미심쩍습니다. 한마디로 데이터 컨텍스트 없이는 데이터 품질도 없습니다.
데이터 품질 관리가 데이터 엔지니어링의 중요한 구성 요소라는 사실은 널리 알려져 있습니다. 상시 검증의 필요성에 대해서는 논란의 여지가 없지만 접근 방식은 매우 다양합니다. 아쉬운 점은 쉽게 자동화하고 광범위하게 확장할 수 있는 요약 통계나 기본적인 일변량 이상 탐지법에만 의존하는 경우가 너무나 많다는 것입니다. 어쨌거나 장기적으로 봤을 때 컨텍스트 없는 데이터 품질 검사는 미묘한 차이를 무시하지만, 다운스트림 사용자가 알아채지 못할 수 있는 치명적인 오류를 감지하는 데는 도움이 됩니다.
컨텍스트를 강화한 비즈니스 규칙을 데이터 품질 검사 규칙으로 명시하면 통계적 방식으로 수행하던 데이터 유효성 검증을 도메인 지식으로 보완할 수 있습니다. 고수준 요구 사항을 그저 ‘널 아님’ 식으로 정의하는 대신 ‘전자상거래 고객의 변제 총액은 ...