book

데이터 과학을 위한 통계(2판)

Name: 데이터 과학을 위한 통계(2판)
ISBN: 9791162244180

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

May 2021

Beginner to intermediate

380 pages

9h 22m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.2.1 데이터 프레임과 인덱스
1.2.2 테이블 형식이 아닌 데이터 구조
1.2.3 더 읽을 거리
1.3 위치 추정
1.3.1 평균
1.3.2 중간값과 로버스트 추정
1.3.3 예제: 인구에 따른 살인 비율의 위치 추정
1.3.4 더 읽을 거리
1.4 변이 추정
1.4.1 표준편차와 관련 추정값들
1.4.2 백분위수에 기초한 추정
1.4.3 예제: 주별 인구의 변이 추정
1.4.4 더 읽을 거리
1.5 데이터 분포 탐색하기
1.5.1 백분위수와 상자그림
1.5.2 도수분포표와 히스토그램
1.5.3 밀도 그림과 추정
1.5.4 더 읽을 거리
1.6 이진 데이터와 범주 데이터 탐색하기
1.6.1 최빈값
1.6.2 기댓값
1.6.3 확률
1.6.4 더 읽을 거리
1.7 상관관계
1.7.1 산점도
1.7.2 더 읽을 거리
1.8 두 개 이상의 변수 탐색하기
1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)
1.8.2 범주형 변수 대 범주형 변수
1.8.3 범주형 변수 대 수치형 변수
1.8.4 다변수 시각화하기
1.8.5 더 읽을 거리
1.9 마치며
데이터와 표본분포
2.1 임의표본추출과 표본편향
2.1.1 편향
2.1.2 임의 선택
2.1.3 크기와 품질: 크기는 언제 중요해질까?
2.1.4 표본평균과 모평균
2.1.5 더 읽을 거리2.2 선택편향
2.2.1 평균으로의 회귀
2.2.2 더 읽을 거리
2.3 통계학에서의 표본분포
2.3.1 중심극한정리
2.3.2 표준오차
2.3.3 더 읽을 거리
2.4 부트스트랩
2.4.1 재표본추출 대 부트스트래핑
2.4.2 더 읽을 거리2.5 신뢰구간
2.5.1 더 읽을 거리
2.6 정규분포
2.6.1 표준정규분포와 QQ 그림
2.7 긴 꼬리 분포
2.7.1 더 읽을 거리
2.8 스튜던트의 t 분포
2.8.1 더 읽을 거리
2.9 이항분포
2.9.1 더 읽을 거리
2.10 카이제곱분포
2.10.1 더 읽을 거리
2.11 F 분포
2.11.1 더 읽을 거리
2.12 푸아송 분포와 그 외 관련 분포들
2.12.1 푸아송 분포
2.12.2 지수분포
2.12.3 고장률 추정
2.12.4 베이불 분포
2.12.5 더 읽을 거리
2.13 마치며
통계적 실험과 유의성검정
3.1 A/B 검정
3.1.1 대조군은 왜 필요할까?
3.1.2 왜 하필 A/B일까? C, D, … 가 아니라?
3.1.3 더 읽을 거리
3.2 가설검정
3.2.1 귀무가설
3.2.2 대립가설
3.2.3 일원/이원 가설검정
3.2.4 더 읽을 거리
3.3 재표본추출
3.3.1 순열검정
3.3.2 예제: 웹 점착성
3.3.3 전체 및 부트스트랩 순열검정
3.3.4 순열검정: 데이터 과학의 최종 결론
3.3.5 더 읽을 거리3.4 통계적 유의성과 p 값
3.4.1 p 값
3.4.2 유의수준
3.4.3 제1종과 제2종 오류
3.4.4 데이터 과학과 p 값
3.4.5 더 읽을 거리
3.5 t 검정
3.5.1 더 읽을 거리
3.6 다중검정
3.6.1 더 읽을 거리
3.7 자유도
3.7.1 더 읽을 거리
3.8 분산분석
3.8.1 F 통계량
3.8.2 이원 분산분석
3.8.3 더 읽을 거리
3.9 카이제곱검정
3.9.1 카이제곱검정: 재표본추출 방법
3.9.2 카이제곱검정: 통계적 이론
3.9.3 피셔의 정확검정
3.9.4 데이터 과학과의 관련성
3.9.5 더 읽을 거리
3.10 멀티암드 밴딧 알고리즘
3.10.1 더 읽을 거리
3.11 검정력과 표본크기
3.11.1 표본크기
3.11.2 더 읽을 거리
3.12 마치며
회귀와 예측
4.1 단순선형회귀
4.1.1 회귀식
4.1.2 적합값과 잔차
4.1.3 최소제곱
4.1.4 예측 대 설명(프로파일링)
4.1.5 더 읽을 거리
4.2 다중선형회귀
4.2.1 킹 카운티 주택 정보 예제
4.2.2 모형 평가
4.2.3 교차타당성검사
4.2.4 모형 선택 및 단계적 회귀
4.2.5 가중회귀
4.2.6 더 읽을 거리
4.3 회귀를 이용한 예측
4.3.1 외삽의 위험4.3.2 신뢰구간과 예측구간
4.4 회귀에서의 요인변수
4.4.1 가변수 표현
4.4.2 다수의 수준을 갖는 요인변수들
4.4.3 순서가 있는 요인변수
4.5 회귀방정식 해석
4.5.1 예측변수 간 상관
4.5.2 다중공선성
4.5.3 교란변수
4.5.4 상호작용과 주효과
4.6 회귀진단
4.6.1 특잇값
4.6.2 영향값
4.6.3 이분산성, 비정규성, 오차 간 상관
4.6.4 편잔차그림과 비선형성
4.7 다항회귀와 스플라인 회귀
4.7.1 다항식
4.7.2 스플라인
4.7.3 일반화가법모형
4.7.4 더 읽을 거리
4.8 마치며
분류
5.1 나이브 베이즈
5.1.1 나이브하지 않은 베이즈 분류는 왜 현실성이 없을까?
5.1.2 나이브한 해법
5.1.3 수치형 예측변수
5.1.4 더 읽을 거리
5.2 판별분석
5.2.1 공분산행렬
5.2.2 피셔의 선형판별
5.2.3 간단한 예
5.2.4 더 읽을 거리
5.3 로지스틱 회귀
5.3.1 로지스틱 반응 함수와 로짓
5.3.2 로지스틱 회귀와 GLM
5.3.3 일반화선형모형
5.3.4 로지스틱 회귀의 예측값
5.3.5 계수와 오즈비 해석하기
5.3.6 선형회귀와 로지스틱 회귀: 유사점과 차이점
5.3.7 모델 평가하기
5.3.8 더 읽을 거리
5.4 분류 모델 평가하기
5.4.1 혼동행렬
5.4.2 희귀 클래스 문제
5.4.3 정밀도, 재현율, 특이도
5.4.4 ROC곡선
5.4.5 AUC
5.4.6 리프트
5.4.7 더 읽을 거리
5.5 불균형 데이터 다루기
5.5.1 과소표본추출
5.5.2 과잉표본추출과 상향/하향 가중치
5.5.3 데이터 생성
5.5.4 비용 기반 분류
5.5.5 예측 결과 분석
5.5.6 더 읽을 거리
5.6 마치며
통계적 머신러닝
6.1 k-최근접 이웃
6.1.1 예제: 대출 연체 예측
6.1.2 거리 지표
6.1.3 원-핫 인코더
6.1.4 표준화(정규화, z 점수)
6.1.5 k 선택하기
6.1.6 KNN을 통한 피처 엔지니어링
6.2 트리 모델
6.2.1 간단한 예제
6.2.2 재귀 분할 알고리즘
6.2.3 동질성과 불순도 측정하기
6.2.4 트리 형성 중지하기
6.2.5 연속값 예측하기
6.2.6 트리 활용하기
6.2.7 더 읽을 거리
6.3 배깅과 랜덤 포레스트
6.3.1 배깅
6.3.2 랜덤 포레스트
6.3.3 변수 중요도
6.3.4 하이퍼파라미터
6.4 부스팅
6.4.1 부스팅 알고리즘
6.4.2 XG부스트
6.4.3 정규화: 오버피팅 피하기
6.4.4 하이퍼파라미터와 교차타당성검사
6.5 마치며
비지도 학습
7.1 주성분분석
7.1.1 간단한 예제
7.1.2 주성분 계산
7.1.3 주성분 해석
7.1.4 대응분석
7.1.5 더 읽을 거리
7.2 k-평균 클러스터링
7.2.1 간단한 예제
7.2.2 k-평균 알고리즘
7.2.3 클러스터 해석
7.2.4 클러스터 개수 선정
7.3 계층적 클러스터링
7.3.1 간단한 예제
7.3.2 덴드로그램
7.3.3 병합 알고리즘
7.3.4 비유사도 측정
7.4 모델 기반 클러스터링
7.4.1 다변량정규분포
7.4.2 정규혼합
7.4.3 클러스터 개수 결정하기
7.4.4 더 읽을 거리
7.5 스케일링과 범주형 변수
7.5.1 변수 스케일링
7.5.2 지배 변수
7.5.3 범주형 데이터와 고워 거리
7.5.4 혼합 데이터의 클러스터링 문제
7.6 마치며
찾아보기 (1/3)
찾아보기 (2/3)
찾아보기 (3/3)

Content preview from 데이터 과학을 위한 통계(2판)

350

데이터 과학을 위한 통계

주요 개념

• 모든 레코드를 각각 자체 클러스터로 할당하여 계층적 클러스터링 알고리즘을 시작한다.

• 클러스터들은 모든 레코드가 하나의 클러스터에 속할 때까지 가까운 클러스터와 계속해서 연결된다 (병합

알고리즘 ).

• 병합 과정은 내역이 남고 시각화할 수 있으며, 사용자가 미리 클러스터 수를 지정하지 않더라도 여러 단계

에서 클러스터의 수와 구조를 시각화할 수 있다.

• 클러스터 간 거리는 모든 레코드 간 거리 정보를 사용하여 여러 가지 다른 방식으로 계산할 수 있다.

7.4

모델 기반 클러스터링

계층적 클러스터링과

-평균 같은 클러스터링 방법들은 모두 휴리스틱한 방법

heuristic

이라고 할

수 있으며, 직접 관측한 (즉 확률모형에 기반하지 않고) 데이터들이 서로 가깝게 있는 클러스

터를 찾는 데 주로 사용된다. 연구자들은 지난

년간

모델 기반 클러스터링

model

based

clustering

을

개발하는 데 많은 노력을 기울여왔다. 워싱턴 대학교의 에이드리언 래프터리

Adrian

Raftery

와 동료

들은 이론적인 측면과 소프트웨어적인 측면에서 모델 기반 클러스터링을 개발하는 데 큰 기여

를 했다. 이 기법은 통계 이론에 기초하고 있으며 클러스터의 성질과 수를 결정하는 더 엄격한

방법을 제공한다. 예를 들면 전반적으로는 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791162244180

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

데이터 과학을 위한 통계(2판)

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

데이터 엔지니어를 위한 97가지 조언

파이썬으로 살펴보는 아키텍처 패턴

개발자를 위한 머신러닝&딥러닝

코드로 인프라 관리하기: 효율적인 인프라 관리를 위한 자동화 방법

Publisher Resources