
67
2
장
데이터 준비
중복 데이터가 있거나, 앞의 예시와 같이 엄밀히 중복 데이터는 아니지만 한 개체가 동일한 레
코드를 여러 개 반환하는 경우에는 분석 시 부정확한 쿼리 결과가 나올 수 있습니다. 쿼리를 수
행했을 때 고객 수 또는 전체 판매 수가 예상보다 몇 배씩 크다면 데이터 중복을 의심해봅시다.
지금까지 데이터 중복 문제를 방지하는 몇 가지 방법을 알아봤습니다. 다음 절에서는 데이터
표준화, 결측값 처리 등 데이터 분석 시 자주 발생하는 문제를 해결하는 방법을 알아봅니다.
2.5
준비: 데이터 정제
앞 절에서는 프로파일링을 통해 데이터 처리가 필요한 부분을 찾아내는 방법을 살펴봤습니다.
이 절에서는
CASE
변환,
null
처리, 데이터 타입 변환 등의 데이터 처리 방법을 알아봅니다.
2.5.1
CASE
변환
CASE
문은 데이터 정제, 보강
enrichment
, 요약 등 다양한 목적으로 사용합니다. 데이터를 별도로
처리하지 않아도 그 자체로 분석에 충분한 경우도 있지만, 필요에 따라 데이터를 표준화하거
나 몇 개의 카테고리로 그룹화하면 더 유용한 분석을 수행할 수도 있습니다.
CASE
문의 구조는
2
.
3
.
2
절 ‘구간화’에서 살펴봤습니다.
표준화되지 않은 값은 여러 이유로 생깁니다. 데이터를 수집할 때 각기 다른 선택지를 제공하
는 여러 시스템을 이용했거나, ...