
63
2
장
데이터 준비
프로파일링은 잘못된 데이터로 인해 틀린 분석 결과 및 결론이 나오지 않도록 데이터 품질 문
제를 초기에 확인하는 방법입니다. 프로파일링으로
null
, 검토해야 할 카테고리 분류, 처리가
필요한 값이 여러 개인 필드, 일반적이지 않은 날짜/시간 형식을 찾아냅니다. 또한, 데이터 수
집이 끊기거나 문제가 생겼을 때 이로 인해 발생한 데이터 양상의 변화도 발견할 수 있습니다.
데이터가 완벽하게 준비되는 경우는 거의 없습니다. 만약 완벽히 준비된 것 같다면 데이터에
아직 발견하지 못한 문제가 없는지 살펴봐야 합니다.
2.4.1
중복 탐지
중복이란 같은 정보를 가진 행이
2
개 이상 존재함을 의미합니다. 데이터 중복이 발생하는 이유
는 다양합니다. 데이터를 수동으로 삽입하다가 실수할 수도 있고, 데이터 삽입 코드가 두 번 실
행되는 경우도 있습니다. 데이터 처리 단계에서 코드가 여러 번 실행되는 일이 생기기도 합니
다. 이러한 실수는 다대다
many
-
to
-
many
JOIN
을 사용할 때 흔히 일어나는데, 이때 발생하는 데이
터 중복은 분석에 큰 문제를 일으킬 수 있습니다. 필자가 데이터 분석 업무를 시작한 초기에 한
번은 프로덕트 매니저가 데이터 보고서에 적힌 판매량이 실제 판매량보다 두 배가량 많다고 지
적한 적이 있습니다. 정말 부끄러웠고 신뢰를 잃었을 ...