book

SQL로 시작하는 데이터 분석

Name: SQL로 시작하는 데이터 분석
Author: 캐시 타니무라
ISBN: 9791169210089

by 캐시 타니무라, 박상근

August 2022

Beginner to intermediate

436 pages

9h 43m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.3 데이터베이스 타입과 활용법
1.3.1 행 기반 데이터베이스
1.3.2 열 기반 데이터베이스
1.3.3 데이터 인프라스트럭처 유형
1.4 결론
CHAPTER 2 데이터 준비
2.1 데이터 타입2.1.1 데이터베이스 데이터 타입
2.1.2 정형 데이터와 반정형 데이터
2.1.3 정량 데이터와 정성 데이터
2.1.4 퍼스트, 세컨드, 서드 파티 데이터
2.1.5 희소 데이터
2.2 SQL 쿼리 구조
2.3 프로파일링: 데이터 분포
2.3.1 히스토그램과 빈도
2.3.2 구간화
2.3.3 N분위수
2.4 프로파일링: 데이터 품질
2.4.1 중복 탐지
2.4.2 중복 제거
2.5 준비: 데이터 정제
2.5.1 CASE 변환
2.5.2 타입 변환과 캐스팅
2.5.3 null 값 다루기
2.5.4 결측 데이터 (1/2)
2.5.4 결측 데이터 (2/2)
2.6 준비: 데이터 셰이핑
2.6.1 분석 결과 활용
2.6.2 CASE 문을 활용한 피벗
2.6.3 UNION 문을 활용한 언피벗
2.6.4 피벗과 언피벗 함수
2.7 결론
CHAPTER 3 시계열 분석
3.1 날짜 및 시간 데이터 조작3.1.1 시간대 변환
3.1.2 날짜 및 타임스탬프 형식 변환 (1/2)
3.1.2 날짜 및 타임스탬프 형식 변환 (2/2)
3.1.3 날짜 계산
3.1.4 시간 계산
3.1.5 서로 다른 출처의 날짜 합치기
3.2 데이터셋: 소매업 매출
3.3 데이터 트렌드 분석
3.3.1 간단한 트렌드
3.3.2 요소 비교 (1/2)
3.3.2 요소 비교 (2/2)
3.3.3 전체 대비 비율 계산 (1/2)
3.3.3 전체 대비 비율 계산 (2/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (1/2)
3.3.4 인덱싱으로 시계열 데이터 변화 이해하기 (2/2)
3.4 시간 윈도우 롤링
3.4.1 시간 윈도우 롤링 계산 (1/2)
3.4.1 시간 윈도우 롤링 계산 (2/2)
3.4.2 희소 데이터와 시간 윈도우 롤링
3.4.3 누적값 계산
3.5 계절성 분석
3.5.1 구간 비교: YoY과 MoM
3.5.2 구간 비교: 작년과 올해 비교
3.5.3 다중 구간 비교
3.6 결론
CHAPTER 4 코호트 분석
4.1 코호트
4.2 데이터셋: 미국 의회 입법가
4.3 리텐션
4.3.1 기본 리텐션 계산하기
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (1/2)
4.3.2 시계열을 조절해 리텐션 정확도 향상하기 (2/2)
4.3.3 시계열 데이터에서 코호트 분석하기
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (1/2)
4.3.4 다른 테이블에 저장된 속성으로 코호트 분석하기 (2/2)
4.3.5 희소 코호트 다루기 (1/2)
4.3.5 희소 코호트 다루기 (2/2)
4.3.6 처음 날짜 대신 다른 날짜를 기준으로 코호트 정의하기
4.4 관련 코호트 분석
4.4.1 생존자
4.4.2 리턴십 (1/2)
4.4.2 리턴십 (2/2)
4.4.3 누적 계산
4.5 코호트를 활용한 크로스 섹션 분석 (1/2)
4.5 코호트를 활용한 크로스 섹션 분석 (2/2)
4.6 결론
CHAPTER 5 텍스트 분석
5.1 SQL을 활용한 텍스트 분석5.1.1 텍스트 분석이란
5.1.2 SQL이 적합한 경우
5.1.3 SQL이 적합하지 않은 경우
5.2 데이터셋: UFO 목격 보고
5.3 텍스트 특징
5.4 텍스트 파싱 (1/2)
5.4 텍스트 파싱 (2/2)
5.5 텍스트 변환 (1/2)
5.5 텍스트 변환 (2/2)
5.6 대규모 텍스트에서 문자열 찾기
5.6.1 와일드카드 매칭
5.6.2 정확한 매칭
5.6.3 정규 표현식 (1/3)
5.6.3 정규 표현식 (2/3)
5.6.3 정규 표현식 (3/3)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (1/2)
5.6.4 정규 표현식을 활용한 패턴 매칭과 대체 (2/2)
5.7 텍스트 구성과 형태 변환
5.7.1 문자열 연결
5.7.2 텍스트 형태 변환
5.8 결론
CHAPTER 6 이상 탐지
6.1 SQL을 활용한 이상 탐지
6.2 데이터셋: 지진 발생 기록
6.3 아웃라이어 탐지
6.3.1 정렬 활용
6.3.2 백분위수와 표준편차 활용 (1/2)
6.3.2 백분위수와 표준편차 활용 (2/2)
6.3.3 그래프 활용 (1/2)
6.3.3 그래프 활용 (2/2)
6.4 이상값의 형태
6.4.1 예외적인 값
6.4.2 예외적인 개수 또는 빈도 (1/2)
6.4.2 예외적인 개수 또는 빈도 (2/2)
6.4.3 데이터 결측으로 인한 이상값
6.5 이상값 처리
6.5.1 조사6.5.2 삭제
6.5.3 대체
6.5.4 리스케일
6.6 결론
CHAPTER 7 실험 분석
7.1 SQL을 활용한 실험 분석
7.2 데이터셋: 모바일 게임 사용자
7.3 실험 유형
7.3.1 카이제곱 검정
7.3.2 t - 검정
7.4 실험의 어려움과 문제 해결 방법
7.4.1 사용자군 할당
7.4.2 아웃라이어
7.4.3 타임박싱
7.4.4 반복 노출 실험
7.5 대체 분석 방법
7.5.1 사전/사후 분석
7.5.2 자연 실험 분석
7.5.3 임계값 기준 집단 분석
7.6 결론
CHAPTER 8 복잡한 데이터셋 생성
8.1 SQL로 복잡한 데이터셋 생성하기8.1.1 SQL 활용의 장점
8.1.2 ET L로 데이터셋 활용하기
8.1.3 다른 도구로 데이터셋 활용하기
8.2 코드 구성
8.2.1 주석 처리
8.2.2 포매팅 요령
8.2.3 코드 저장
8.3 쿼리 실행 순서 구성
8.3.1 SQL 절의 실행 순서
8.3.2 서브쿼리
8.3.3 임시 테이블
8.3.4 공통 테이블 표현식
8.3.5 그룹 함수 (1/2)
8.3.5 그룹 함수 (2/2)
8.4 데이터셋 크기 및 프라이버시 관리
8.4.1 샘플링
8.4.2 차원 축소 (1/2)
8.4.2 차원 축소 (2/2)
8.4.3 개인 식별 정보와 데이터 프라이버시
8.5 결론
CHAPTER 9 결론
9.1 퍼널 분석
9.2 이탈, 휴면의 정의 (1/2)
9.2 이탈, 휴면의 정의 (2/2)
9.3 장바구니 분석
9.4 참고 자료
9.4.1 책과 블로그
9.4.2 데이터셋
9.5 마치며
찾아보기 (1/2)
찾아보기 (2/2)

Content preview from SQL로 시작하는 데이터 분석

235

장

텍스트 분석

지난 장에서는 시계열 분석과 코호트 분석을 활용해 날짜와 숫자를 다루는 다양한 방법을 알아

봤습니다. 실제로 분석을 수행하다 보면 데이터셋이 날짜나 숫자와 관련된 값이 아닐 때도 많

습니다. 날짜와 숫자보다는 정성적

qualitative

속성 및 자유 텍스트와 같이 흥미로운 정보를 포함

하는 문자열 필드를 더 자주 접하기도 합니다. 데이터베이스는 총계, 합계, 평균 등의 숫자 계

산뿐 아니라 텍스트 데이터를 다루는 데도 강력합니다.

이 장에서는

SQL

과 다른 프로그래밍 언어를 사용하기에 적합한 텍스트 분석 유형을 각각 간단

히 알아본 뒤

UFO

목격 보고 데이터셋을 활용해 텍스트 특징, 프로파일링, 데이터 파싱, 여러

가지 텍스트 변환, 새로운 텍스트 생성, 정규 표현식

regular

expression

을 활용해 대규모 텍스트에서

원하는 패턴을 찾는 방법 등을 알아봅니다.

5.1

SQL

을 활용한 텍스트 분석

전 세계에서 매일같이 생산되는 엄청난 양의 데이터 중 상당수는 단어, 문장, 문단, 문서 등의

텍스트로 구성돼 있습니다. 텍스트 데이터는 다양한 출처를 통해 만들어집니다. 고객 문의, 설

문, 소셜 미디어 게시글, 뉴스 피드처럼 사람이 직접 작성하기도 하고, 로그 파일처럼 컴퓨터

애플리케이션에서 생성되기도 합니다. 데이터베이스에서 텍스트는 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791169210089

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

행동 데이터 분석

견고한 데이터 엔지니어링

파이썬으로 살펴보는 아키텍처 패턴

실무로 통하는 클린 코드

Publisher Resources