Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
63
2
데이터 준비
프로파일링은 잘못된 데이터로 인해 틀린 분석 결과 및 결론이 나오지 않도록 데이터 품질 문
제를 초기에 확인하는 방법입니다. 프로파일링으로
null
, 검토해야 할 카테고리 분류, 처리가
필요한 값이 여러 개인 필드, 일반적이지 않은 날짜/시간 형식을 찾아냅니다. 또한, 데이터 수
집이 끊기거나 문제가 생겼을 때 이로 인해 발생한 데이터 양상의 변화도 발견할 수 있습니다.
데이터가 완벽하게 준비되는 경우는 거의 없습니다. 만약 완벽히 준비된 것 같다면 데이터에
아직 발견하지 못한 문제가 없는지 살펴봐야 합니다.
2.4.1
중복 탐지
중복이란 같은 정보를 가진 행이
2
개 이상 존재함을 의미합니다. 데이터 중복이 발생하는 이유
는 다양합니다. 데이터를 수동으로 삽입하다가 실수할 수도 있고, 데이터 삽입 코드가 두 번 실
행되는 경우도 있습니다. 데이터 처리 단계에서 코드가 여러 번 실행되는 일이 생기기도 합니
다. 이러한 실수는 다대다
many
-
to
-
many
JOIN
을 사용할 때 흔히 일어나는데, 이때 발생하는 데이
터 중복은 분석에 큰 문제를 일으킬 수 있습니다. 필자가 데이터 분석 업무를 시작한 초기에 한
번은 프로덕트 매니저가 데이터 보고서에 적힌 판매량이 실제 판매량보다 두 배가량 많다고 지
적한 적이 있습니다. 정말 부끄러웠고 신뢰를 잃었을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
파이썬으로 살펴보는 아키텍처 패턴

파이썬으로 살펴보는 아키텍처 패턴

오현석, 해리 퍼시벌, 밥 그레고리
실무로 통하는 클린 코드

실무로 통하는 클린 코드

막시밀리아노 콘티에리

Publisher Resources

ISBN: 9791169210089