Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
67
2
데이터 준비
중복 데이터가 있거나, 앞의 예시와 같이 엄밀히 중복 데이터는 아니지만 한 개체가 동일한 레
코드를 여러 개 반환하는 경우에는 분석 시 부정확한 쿼리 결과가 나올 수 있습니다. 쿼리를 수
행했을 때 고객 수 또는 전체 판매 수가 예상보다 몇 배씩 크다면 데이터 중복을 의심해봅시다.
지금까지 데이터 중복 문제를 방지하는 몇 가지 방법을 알아봤습니다. 다음 절에서는 데이터
표준화, 결측값 처리 등 데이터 분석 시 자주 발생하는 문제를 해결하는 방법을 알아봅니다.
2.5
준비: 데이터 정제
앞 절에서는 프로파일링을 통해 데이터 처리가 필요한 부분을 찾아내는 방법을 살펴봤습니다.
이 절에서는
CASE
변환,
null
처리, 데이터 타입 변환 등의 데이터 처리 방법을 알아봅니다.
2.5.1
CASE
변환
CASE
문은 데이터 정제, 보강
enrichment
, 요약 등 다양한 목적으로 사용합니다. 데이터를 별도로
처리하지 않아도 그 자체로 분석에 충분한 경우도 있지만, 필요에 따라 데이터를 표준화하거
나 몇 개의 카테고리로 그룹화하면 더 유용한 분석을 수행할 수도 있습니다.
CASE
문의 구조는
2
.
3
.
2
절 ‘구간화’에서 살펴봤습니다.
표준화되지 않은 값은 여러 이유로 생깁니다. 데이터를 수집할 때 각기 다른 선택지를 제공하
는 여러 시스템을 이용했거나, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
데이터 과학을 위한 통계(2판)

데이터 과학을 위한 통계(2판)

이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Publisher Resources

ISBN: 9791169210089