book

SQL로 시작하는 데이터 분석

Name: SQL로 시작하는 데이터 분석
Author: 캐시 타니무라
ISBN: 9791169210089

by 캐시 타니무라, 박상근

August 2022

Beginner to intermediate

436 pages

9h 43m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.3 데이터베이스 타입과 활용법
1.3.1 행 기반 데이터베이스
1.3.2 열 기반 데이터베이스
1.3.3 데이터 인프라스트럭처 유형
1.4 결론
CHAPTER 2 데이터 준비
2.1 데이터 타입2.1.1 데이터베이스 데이터 타입
2.1.2 정형 데이터와 반정형 데이터
2.1.3 정량 데이터와 정성 데이터
2.1.4 퍼스트, 세컨드, 서드 파티 데이터
2.1.5 희소 데이터
2.2 SQL 쿼리 구조
2.3 프로파일링: 데이터 분포
2.3.1 히스토그램과 빈도
2.3.2 구간화
2.3.3 N분위수
2.4 프로파일링: 데이터 품질
2.4.1 중복 탐지
2.4.2 중복 제거
2.5 준비: 데이터 정제
2.5.1 CASE 변환
2.5.2 타입 변환과 캐스팅
2.5.3 null 값 다루기
2.5.4 결측 데이터 (1/2)
2.5.4 결측 데이터 (2/2)
2.6 준비: 데이터 셰이핑
2.6.1 분석 결과 활용
2.6.2 CASE 문을 활용한 피벗
2.6.3 UNION 문을 활용한 언피벗
2.6.4 피벗과 언피벗 함수
2.7 결론
CHAPTER 3 시계열 분석
3.1 날짜 및 시간 데이터 조작3.1.1 시간대 변환
3.1.2 날짜 및 타임스탬프 형식 변환 (1/2)
3.1.2 날짜 및 타임스탬프 형식 변환 (2/2)
3.1.3 날짜 계산
3.1.4 시간 계산
3.1.5 서로 다른 출처의 날짜 합치기
3.2 데이터셋: 소매업 매출
3.3 데이터 트렌드 분석
3.3.1 간단한 트렌드
3.3.2 요소 비교 (1/2)
3.3.2 요소 비교 (2/2)
3.3.3 전체 대비 비율 계산 (1/2)
3.3.3 전체 대비 비율 계산 (2/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (1/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (2/2)
3.4 시간 윈도우 롤링
3.4.1 시간 윈도우 롤링 계산 (1/2)
3.4.1 시간 윈도우 롤링 계산 (2/2)
3.4.2 희소 데이터와 시간 윈도우 롤링
3.4.3 누적값 계산
3.5 계절성 분석
3.5.1 구간 비교: YoY과 MoM
3.5.2 구간 비교: 작년과 올해 비교
3.5.3 다중 구간 비교
3.6 결론
CHAPTER 4 코호트 분석
4.1 코호트
4.2 데이터셋: 미국 의회 입법가
4.3 리텐션
4.3.1 기본 리텐션 계산하기
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (1/2)
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (2/2)
4.3.3 시계열 데이터에서 코호트 분석하기
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (1/2)
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (2/2)
4.3.5 희소 코호트 다루기 (1/2)
4.3.5 희소 코호트 다루기 (2/2)
4.3.6 처음 날짜 대신 다른 날짜를 기준으로 코호트 정의하기
4.4 관련 코호트 분석
4.4.1 생존자
4.4.2 리턴십 (1/2)
4.4.2 리턴십 (2/2)
4.4.3 누적 계산
4.5 코호트를 활용한 크로스 섹션 분석 (1/2)
4.5 코호트를 활용한 크로스 섹션 분석 (2/2)
4.6 결론
CHAPTER 5 텍스트 분석
5.1 SQL을 활용한 텍스트 분석5.1.1 텍스트 분석이란
5.1.2 SQL이 적합한 경우
5.1.3 SQL이 적합하지 않은 경우
5.2 데이터셋: UFO 목격 보고
5.3 텍스트 특징
5.4 텍스트 파싱 (1/2)
5.4 텍스트 파싱 (2/2)
5.5 텍스트 변환 (1/2)
5.5 텍스트 변환 (2/2)
5.6 대규모 텍스트에서 문자열 찾기
5.6.1 와일드카드 매칭
5.6.2 정확한 매칭
5.6.3 정규 표현식 (1/3)
5.6.3 정규 표현식 (2/3)
5.6.3 정규 표현식 (3/3)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (1/2)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (2/2)
5.7 텍스트 구성과 형태 변환
5.7.1 문자열 연결
5.7.2 텍스트 형태 변환
5.8 결론
CHAPTER 6 이상 탐지
6.1 SQL을 활용한 이상 탐지
6.2 데이터셋: 지진 발생 기록
6.3 아웃라이어 탐지
6.3.1 정렬 활용
6.3.2 백분위수와 표준편차 활용 (1/2)
6.3.2 백분위수와 표준편차 활용 (2/2)
6.3.3 그래프 활용 (1/2)
6.3.3 그래프 활용 (2/2)
6.4 이상값의 형태
6.4.1 예외적인 값
6.4.2 예외적인 개수 또는 빈도 (1/2)
6.4.2 예외적인 개수 또는 빈도 (2/2)
6.4.3 데이터 결측으로 인한 이상값
6.5 이상값 처리
6.5.1 조사6.5.2 삭제
6.5.3 대체
6.5.4 리스케일
6.6 결론
CHAPTER 7 실험 분석
7.1 SQL을 활용한 실험 분석
7.2 데이터셋: 모바일 게임 사용자
7.3 실험 유형
7.3.1 카이제곱 검정
7.3.2 t - 검정
7.4 실험의 어려움과 문제 해결 방법
7.4.1 사용자군 할당
7.4.2 아웃라이어
7.4.3 타임박싱
7.4.4 반복 노출 실험
7.5 대체 분석 방법
7.5.1 사전/사후 분석
7.5.2 자연 실험 분석
7.5.3 임계값 기준 집단 분석
7.6 결론
CHAPTER 8 복잡한 데이터셋 생성
8.1 SQL로 복잡한 데이터셋 생성하기8.1.1 SQL 활용의 장점
8.1.2 ET L로 데이터셋 활용하기
8.1.3 다른 도구로 데이터셋 활용하기
8.2 코드 구성
8.2.1 주석 처리
8.2.2 포매팅 요령
8.2.3 코드 저장
8.3 쿼리 실행 순서 구성
8.3.1 SQL 절의 실행 순서
8.3.2 서브쿼리
8.3.3 임시 테이블
8.3.4 공통 테이블 표현식
8.3.5 그룹 함수 (1/2)
8.3.5 그룹 함수 (2/2)
8.4 데이터셋 크기 및 프라이버시 관리
8.4.1 샘플링
8.4.2 차원 축소 (1/2)
8.4.2 차원 축소 (2/2)
8.4.3 개인 식별 정보와 데이터 프라이버시
8.5 결론
CHAPTER 9 결론
9.1 퍼널 분석
9.2 이탈, 휴면의 정의 (1/2)
9.2 이탈, 휴면의 정의 (2/2)
9.3 장바구니 분석
9.4 참고 자료
9.4.1 책과 블로그
9.4.2 데이터셋
9.5 마치며
찾아보기 (1/2)
찾아보기 (2/2)

Content preview from SQL로 시작하는 데이터 분석

403

장

복잡한 데이터셋 생성

8.4

데이터셋 크기 및 프라이버시 관리

SQL

이 제대로 동작하도록 로직을 구성하고, 그에 맞춰 코드를 작성하고, 최적화 작업을 끝냈

더라도 아직 문제가 남았습니다. 바로 결과 데이터셋의 크기입니다. 최근에는 저렴하게 이용

가능한 데이터 스토리지에 대용량 데이터셋을 저장할 수도 있으며, 연산 성능의 발전으로 정교

하고 세밀한 데이터 분석도 가능해졌습니다. 하지만

도구 등에서 대용량 데이터를 사용하거

나 시스템 간에 대용량 데이터셋을 전달할 때는 데이터셋 크기로 인해 병목 현상이 발생하기도

합니다. 뿐만 아니라, 민감한 데이터를 다룰 때는 데이터 프라이버시 문제도 주의해야 합니다.

이 절에서는 대용량 데이터셋의 크기를 줄이는 방법과 데이터 프라이버시 문제를 다루는 방법

을 알아봅니다.

8.4.1

샘플링

결과 데이터셋 크기를 줄이기 위해 원본 데이터를 샘플링하는 방법을 알아봅시다.

샘플링

sampling

이란 원본 데이터의 일부를 특정 기준에 따라 추출하는 방법으로, 데이터셋이 매우 커서

일부만 추출해 분석해도 대표성이 보장된다고 판단될 때 사용하기 좋습니다. 예를 들어, 사람

들이 많이 사용하는 웹사이트의 트래픽을 분석할 때는 전체 데이터에서 일부만 샘플링해 분석

하더라도 충분히 유용한 인사이트를 얻을 수 있습니다. 샘플링을 수행하려면 두 가지를 결정해

야 합니다. 첫 번째는 샘플 데이터의 크기입니다. 데이터 크기를 최대한 줄이면서도 중요한 정

보를 많이 잃지 않게끔 적절한 수준으로 샘플 크기를 결정합니다. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791169210089

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

행동 데이터 분석

견고한 데이터 엔지니어링

파이썬으로 살펴보는 아키텍처 패턴

실무로 통하는 클린 코드

Publisher Resources