데이터셋이나 데이터셋에 포함된 특정 필드에 관해 알아보는 데는 필드별로 각 값의 출현 빈도를
확인하는 방법이 가장 좋습니다. 빈도 확인은 특정 값이 나올 수 있는지 또는 예상치 못한 값이
있는지, 있다면 어떻게 그런 값이 들어갈 수 있는지 등을 알아볼 때 유용합니다. 문자열, 숫자,
날짜, 논리 등 어느 데이터 타입에든 사용할 수 있으며, 희소 데이터를 찾는 데도 유용합니다.
쿼리는 간단합니다. 프로파일링하려는 필드를
GROUP
BY
절로 지정하고,
count
(*)
를 사용해
필드 내에서 각 값의 개수를 알아냅니다. 예를 들어, 가상의
fruit
_
inventory
테이블에서
fruit
의 타입별 값의 빈도수를 확인하는 방법은 다음과 같습니다.
SELECT
fruit,
count
(*)
as
quantity
FROM
fruit_inventory
GROUP BY
1
;
TIP
count
함수를 사용할 때는 데이터셋에 중복되는 레코드가 있는지 잘 알아봐야 합니다. 전체 레코드 수를 알
고 싶다면
count
(*)
를 사용해도 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.