Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
53
2
데이터 준비
기법을 서술했습니다. 데이터 분포를 파악하는 데 사용하는 줄기 잎 그림
stem
-
and
-
leaf
plot
, 상자
그림
box
plot
, 히스토그램
histogram
등이 바로 이 책에서 처음 제안한 것들입니다.
2.3.1
히스토그램과 빈도
데이터셋이나 데이터셋에 포함된 특정 필드에 관해 알아보는 데는 필드별로 각 값의 출현 빈도를
확인하는 방법이 가장 좋습니다. 빈도 확인은 특정 값이 나올 수 있는지 또는 예상치 못한 값이
있는지, 있다면 어떻게 그런 값이 들어갈 수 있는지 등을 알아볼 때 유용합니다. 문자열, 숫자,
날짜, 논리 등 어느 데이터 타입에든 사용할 수 있으며, 희소 데이터를 찾는 데도 유용합니다.
쿼리는 간단합니다. 프로파일링하려는 필드를
GROUP
BY
절로 지정하고,
count
(*)
를 사용해
필드 내에서 각 값의 개수를 알아냅니다. 예를 들어, 가상의
fruit
_
inventory
테이블에서
fruit
의 타입별 값의 빈도수를 확인하는 방법은 다음과 같습니다.
SELECT
fruit,
count
(*)
as
quantity
FROM
fruit_inventory
GROUP BY
1
;
TIP
count
함수를 사용할 때는 데이터셋에 중복되는 레코드가 있는지 잘 알아봐야 합니다. 전체 레코드 수를 알
고 싶다면
count
(*)
를 사용해도 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
데이터 과학을 위한 통계(2판)

데이터 과학을 위한 통계(2판)

이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Publisher Resources

ISBN: 9791169210089