book

SQL로 시작하는 데이터 분석

Name: SQL로 시작하는 데이터 분석
Author: 캐시 타니무라
ISBN: 9791169210089

by 캐시 타니무라, 박상근

August 2022

Beginner to intermediate

436 pages

9h 43m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.3 데이터베이스 타입과 활용법
1.3.1 행 기반 데이터베이스
1.3.2 열 기반 데이터베이스
1.3.3 데이터 인프라스트럭처 유형
1.4 결론
CHAPTER 2 데이터 준비
2.1 데이터 타입2.1.1 데이터베이스 데이터 타입
2.1.2 정형 데이터와 반정형 데이터
2.1.3 정량 데이터와 정성 데이터
2.1.4 퍼스트, 세컨드, 서드 파티 데이터
2.1.5 희소 데이터
2.2 SQL 쿼리 구조
2.3 프로파일링: 데이터 분포
2.3.1 히스토그램과 빈도
2.3.2 구간화
2.3.3 N분위수
2.4 프로파일링: 데이터 품질
2.4.1 중복 탐지
2.4.2 중복 제거
2.5 준비: 데이터 정제
2.5.1 CASE 변환
2.5.2 타입 변환과 캐스팅
2.5.3 null 값 다루기
2.5.4 결측 데이터 (1/2)
2.5.4 결측 데이터 (2/2)
2.6 준비: 데이터 셰이핑
2.6.1 분석 결과 활용
2.6.2 CASE 문을 활용한 피벗
2.6.3 UNION 문을 활용한 언피벗
2.6.4 피벗과 언피벗 함수
2.7 결론
CHAPTER 3 시계열 분석
3.1 날짜 및 시간 데이터 조작3.1.1 시간대 변환
3.1.2 날짜 및 타임스탬프 형식 변환 (1/2)
3.1.2 날짜 및 타임스탬프 형식 변환 (2/2)
3.1.3 날짜 계산
3.1.4 시간 계산
3.1.5 서로 다른 출처의 날짜 합치기
3.2 데이터셋: 소매업 매출
3.3 데이터 트렌드 분석
3.3.1 간단한 트렌드
3.3.2 요소 비교 (1/2)
3.3.2 요소 비교 (2/2)
3.3.3 전체 대비 비율 계산 (1/2)
3.3.3 전체 대비 비율 계산 (2/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (1/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (2/2)
3.4 시간 윈도우 롤링
3.4.1 시간 윈도우 롤링 계산 (1/2)
3.4.1 시간 윈도우 롤링 계산 (2/2)
3.4.2 희소 데이터와 시간 윈도우 롤링
3.4.3 누적값 계산
3.5 계절성 분석
3.5.1 구간 비교: YoY과 MoM
3.5.2 구간 비교: 작년과 올해 비교
3.5.3 다중 구간 비교
3.6 결론
CHAPTER 4 코호트 분석
4.1 코호트
4.2 데이터셋: 미국 의회 입법가
4.3 리텐션
4.3.1 기본 리텐션 계산하기
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (1/2)
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (2/2)
4.3.3 시계열 데이터에서 코호트 분석하기
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (1/2)
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (2/2)
4.3.5 희소 코호트 다루기 (1/2)
4.3.5 희소 코호트 다루기 (2/2)
4.3.6 처음 날짜 대신 다른 날짜를 기준으로 코호트 정의하기
4.4 관련 코호트 분석
4.4.1 생존자
4.4.2 리턴십 (1/2)
4.4.2 리턴십 (2/2)
4.4.3 누적 계산
4.5 코호트를 활용한 크로스 섹션 분석 (1/2)
4.5 코호트를 활용한 크로스 섹션 분석 (2/2)
4.6 결론
CHAPTER 5 텍스트 분석
5.1 SQL을 활용한 텍스트 분석5.1.1 텍스트 분석이란
5.1.2 SQL이 적합한 경우
5.1.3 SQL이 적합하지 않은 경우
5.2 데이터셋: UFO 목격 보고
5.3 텍스트 특징
5.4 텍스트 파싱 (1/2)
5.4 텍스트 파싱 (2/2)
5.5 텍스트 변환 (1/2)
5.5 텍스트 변환 (2/2)
5.6 대규모 텍스트에서 문자열 찾기
5.6.1 와일드카드 매칭
5.6.2 정확한 매칭
5.6.3 정규 표현식 (1/3)
5.6.3 정규 표현식 (2/3)
5.6.3 정규 표현식 (3/3)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (1/2)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (2/2)
5.7 텍스트 구성과 형태 변환
5.7.1 문자열 연결
5.7.2 텍스트 형태 변환
5.8 결론
CHAPTER 6 이상 탐지
6.1 SQL을 활용한 이상 탐지
6.2 데이터셋: 지진 발생 기록
6.3 아웃라이어 탐지
6.3.1 정렬 활용
6.3.2 백분위수와 표준편차 활용 (1/2)
6.3.2 백분위수와 표준편차 활용 (2/2)
6.3.3 그래프 활용 (1/2)
6.3.3 그래프 활용 (2/2)
6.4 이상값의 형태
6.4.1 예외적인 값
6.4.2 예외적인 개수 또는 빈도 (1/2)
6.4.2 예외적인 개수 또는 빈도 (2/2)
6.4.3 데이터 결측으로 인한 이상값
6.5 이상값 처리
6.5.1 조사6.5.2 삭제
6.5.3 대체
6.5.4 리스케일
6.6 결론
CHAPTER 7 실험 분석
7.1 SQL을 활용한 실험 분석
7.2 데이터셋: 모바일 게임 사용자
7.3 실험 유형
7.3.1 카이제곱 검정
7.3.2 t - 검정
7.4 실험의 어려움과 문제 해결 방법
7.4.1 사용자군 할당
7.4.2 아웃라이어
7.4.3 타임박싱
7.4.4 반복 노출 실험
7.5 대체 분석 방법
7.5.1 사전/사후 분석
7.5.2 자연 실험 분석
7.5.3 임계값 기준 집단 분석
7.6 결론
CHAPTER 8 복잡한 데이터셋 생성
8.1 SQL로 복잡한 데이터셋 생성하기8.1.1 SQL 활용의 장점
8.1.2 ET L로 데이터셋 활용하기
8.1.3 다른 도구로 데이터셋 활용하기
8.2 코드 구성
8.2.1 주석 처리
8.2.2 포매팅 요령
8.2.3 코드 저장
8.3 쿼리 실행 순서 구성
8.3.1 SQL 절의 실행 순서
8.3.2 서브쿼리
8.3.3 임시 테이블
8.3.4 공통 테이블 표현식
8.3.5 그룹 함수 (1/2)
8.3.5 그룹 함수 (2/2)
8.4 데이터셋 크기 및 프라이버시 관리
8.4.1 샘플링
8.4.2 차원 축소 (1/2)
8.4.2 차원 축소 (2/2)
8.4.3 개인 식별 정보와 데이터 프라이버시
8.5 결론
CHAPTER 9 결론
9.1 퍼널 분석
9.2 이탈, 휴면의 정의 (1/2)
9.2 이탈, 휴면의 정의 (2/2)
9.3 장바구니 분석
9.4 참고 자료
9.4.1 책과 블로그
9.4.2 데이터셋
9.5 마치며
찾아보기 (1/2)
찾아보기 (2/2)

Content preview from SQL로 시작하는 데이터 분석

장

데이터 준비

중복 데이터가 있거나, 앞의 예시와 같이 엄밀히 중복 데이터는 아니지만 한 개체가 동일한 레

코드를 여러 개 반환하는 경우에는 분석 시 부정확한 쿼리 결과가 나올 수 있습니다. 쿼리를 수

행했을 때 고객 수 또는 전체 판매 수가 예상보다 몇 배씩 크다면 데이터 중복을 의심해봅시다.

지금까지 데이터 중복 문제를 방지하는 몇 가지 방법을 알아봤습니다. 다음 절에서는 데이터

표준화, 결측값 처리 등 데이터 분석 시 자주 발생하는 문제를 해결하는 방법을 알아봅니다.

2.5

준비: 데이터 정제

앞 절에서는 프로파일링을 통해 데이터 처리가 필요한 부분을 찾아내는 방법을 살펴봤습니다.

이 절에서는

CASE

변환,

null

처리, 데이터 타입 변환 등의 데이터 처리 방법을 알아봅니다.

2.5.1

CASE

변환

CASE

문은 데이터 정제, 보강

enrichment

, 요약 등 다양한 목적으로 사용합니다. 데이터를 별도로

처리하지 않아도 그 자체로 분석에 충분한 경우도 있지만, 필요에 따라 데이터를 표준화하거

나 몇 개의 카테고리로 그룹화하면 더 유용한 분석을 수행할 수도 있습니다.

CASE

문의 구조는

절 ‘구간화’에서 살펴봤습니다.

표준화되지 않은 값은 여러 이유로 생깁니다. 데이터를 수집할 때 각기 다른 선택지를 제공하

는 여러 시스템을 이용했거나, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791169210089

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

행동 데이터 분석

견고한 데이터 엔지니어링

파이썬으로 살펴보는 아키텍처 패턴

실무로 통하는 클린 코드

Publisher Resources