Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
337
6
이상 탐지
데이터에서 특정 값의 예외적인 개수, 합계, 빈도를 확인하려면 값 단위를 조금씩 바꿔가면서
쿼리를 수행하고 데이터를 확인하는 반복적인 과정이 필요합니다. 큰 단위로 시작해 점점 더
세밀한 단위로 좁혔다가, 다시 큰 범위에서 데이터를 확인하면서 특정 범위의 데이터와 전체
범위의 데이터를 비교하고, 다시 특정 범위의 데이터를 세밀하게 살펴보거나 다른 속성으로 데
이터를 살펴봅니다. 데이터 분석에서 이는 매우 흔한 과정이며
SQL
은 이러한 반복 작업을 수
행하기에 매우 적합한 도구입니다. 앞 예제에서 간단히 알아본 바와 같이,
3
장에서 배운 시계
열 분석 기법과
5
장에서 배운 텍스트 분석 기법을 조합해 분석을 수행하면 훨씬 풍부한 인사이
트를 도출할 수 있습니다.
6.4.3
데이터 결측으로 인한 이상값
지금까지 여러 예제를 통해 살펴봤듯이 비정상적으로 높은 이벤트 발생 수는 이상값이 될 수
있습니다. 반대로, 이벤트 발생 기록이 없는 경우도 이상값일 수 있다는 사실을 놓쳐선 안 됩
니다. 수술 중인 환자의 심장이 불규칙하게 뛰거나 멈추면 심박수 모니터링 기계에서 경고음
이 울리는 것과 같습니다. 대부분의 경우 신경 써서 확인하지 않는 한 데이터 결측을 찾아내기
란 쉽지 않습니다. 예를 들어, 고객은 서비스 사용을 중지하겠다고 운영자에게 미리 알려주지
않습니다. 단순히 서비스를 사용하지 않고 아무런 데이터를 남기지 않은 채 조용히 떠나버리면
그만입니다.
데이터 결측을 확인하는 방법으로는
4
장에서 배운 코호트 분석 기법이
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
데이터 과학을 위한 통계(2판)

데이터 과학을 위한 통계(2판)

이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Publisher Resources

ISBN: 9791169210089