Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
63
2
데이터 준비
프로파일링은 잘못된 데이터로 인해 틀린 분석 결과 및 결론이 나오지 않도록 데이터 품질 문
제를 초기에 확인하는 방법입니다. 프로파일링으로
null
, 검토해야 할 카테고리 분류, 처리가
필요한 값이 여러 개인 필드, 일반적이지 않은 날짜/시간 형식을 찾아냅니다. 또한, 데이터 수
집이 끊기거나 문제가 생겼을 때 이로 인해 발생한 데이터 양상의 변화도 발견할 수 있습니다.
데이터가 완벽하게 준비되는 경우는 거의 없습니다. 만약 완벽히 준비된 것 같다면 데이터에
아직 발견하지 못한 문제가 없는지 살펴봐야 합니다.
2.4.1
중복 탐지
중복이란 같은 정보를 가진 행이
2
개 이상 존재함을 의미합니다. 데이터 중복이 발생하는 이유
는 다양합니다. 데이터를 수동으로 삽입하다가 실수할 수도 있고, 데이터 삽입 코드가 두 번 실
행되는 경우도 있습니다. 데이터 처리 단계에서 코드가 여러 번 실행되는 일이 생기기도 합니
다. 이러한 실수는 다대다
many
-
to
-
many
JOIN
을 사용할 때 흔히 일어나는데, 이때 발생하는 데이
터 중복은 분석에 큰 문제를 일으킬 수 있습니다. 필자가 데이터 분석 업무를 시작한 초기에 한
번은 프로덕트 매니저가 데이터 보고서에 적힌 판매량이 실제 판매량보다 두 배가량 많다고 지
적한 적이 있습니다. 정말 부끄러웠고 신뢰를 잃었을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
데이터 과학을 위한 통계(2판)

데이터 과학을 위한 통계(2판)

이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Publisher Resources

ISBN: 9791169210089