book

데이터 과학을 위한 통계(2판)

Name: 데이터 과학을 위한 통계(2판)
ISBN: 9791162244180

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

May 2021

Beginner to intermediate

380 pages

9h 22m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.2.1 데이터 프레임과 인덱스
1.2.2 테이블 형식이 아닌 데이터 구조
1.2.3 더 읽을 거리
1.3 위치 추정
1.3.1 평균
1.3.2 중간값과 로버스트 추정
1.3.3 예제: 인구에 따른 살인 비율의 위치 추정
1.3.4 더 읽을 거리
1.4 변이 추정
1.4.1 표준편차와 관련 추정값들
1.4.2 백분위수에 기초한 추정
1.4.3 예제: 주별 인구의 변이 추정
1.4.4 더 읽을 거리
1.5 데이터 분포 탐색하기
1.5.1 백분위수와 상자그림
1.5.2 도수분포표와 히스토그램
1.5.3 밀도 그림과 추정
1.5.4 더 읽을 거리
1.6 이진 데이터와 범주 데이터 탐색하기
1.6.1 최빈값
1.6.2 기댓값
1.6.3 확률
1.6.4 더 읽을 거리
1.7 상관관계
1.7.1 산점도
1.7.2 더 읽을 거리
1.8 두 개 이상의 변수 탐색하기
1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)
1.8.2 범주형 변수 대 범주형 변수
1.8.3 범주형 변수 대 수치형 변수
1.8.4 다변수 시각화하기
1.8.5 더 읽을 거리
1.9 마치며
데이터와 표본분포
2.1 임의표본추출과 표본편향
2.1.1 편향
2.1.2 임의 선택
2.1.3 크기와 품질: 크기는 언제 중요해질까?
2.1.4 표본평균과 모평균
2.1.5 더 읽을 거리2.2 선택편향
2.2.1 평균으로의 회귀
2.2.2 더 읽을 거리
2.3 통계학에서의 표본분포
2.3.1 중심극한정리
2.3.2 표준오차
2.3.3 더 읽을 거리
2.4 부트스트랩
2.4.1 재표본추출 대 부트스트래핑
2.4.2 더 읽을 거리2.5 신뢰구간
2.5.1 더 읽을 거리
2.6 정규분포
2.6.1 표준정규분포와 QQ 그림
2.7 긴 꼬리 분포
2.7.1 더 읽을 거리
2.8 스튜던트의 t 분포
2.8.1 더 읽을 거리
2.9 이항분포
2.9.1 더 읽을 거리
2.10 카이제곱분포
2.10.1 더 읽을 거리
2.11 F 분포
2.11.1 더 읽을 거리
2.12 푸아송 분포와 그 외 관련 분포들
2.12.1 푸아송 분포
2.12.2 지수분포
2.12.3 고장률 추정
2.12.4 베이불 분포
2.12.5 더 읽을 거리
2.13 마치며
통계적 실험과 유의성검정
3.1 A/B 검정
3.1.1 대조군은 왜 필요할까?
3.1.2 왜 하필 A/B일까? C, D, … 가 아니라?
3.1.3 더 읽을 거리
3.2 가설검정
3.2.1 귀무가설
3.2.2 대립가설
3.2.3 일원/이원 가설검정
3.2.4 더 읽을 거리
3.3 재표본추출
3.3.1 순열검정
3.3.2 예제: 웹 점착성
3.3.3 전체 및 부트스트랩 순열검정
3.3.4 순열검정: 데이터 과학의 최종 결론
3.3.5 더 읽을 거리3.4 통계적 유의성과 p 값
3.4.1 p 값
3.4.2 유의수준
3.4.3 제1종과 제2종 오류
3.4.4 데이터 과학과 p 값
3.4.5 더 읽을 거리
3.5 t 검정
3.5.1 더 읽을 거리
3.6 다중검정
3.6.1 더 읽을 거리
3.7 자유도
3.7.1 더 읽을 거리
3.8 분산분석
3.8.1 F 통계량
3.8.2 이원 분산분석
3.8.3 더 읽을 거리
3.9 카이제곱검정
3.9.1 카이제곱검정: 재표본추출 방법
3.9.2 카이제곱검정: 통계적 이론
3.9.3 피셔의 정확검정
3.9.4 데이터 과학과의 관련성
3.9.5 더 읽을 거리
3.10 멀티암드 밴딧 알고리즘
3.10.1 더 읽을 거리
3.11 검정력과 표본크기
3.11.1 표본크기
3.11.2 더 읽을 거리
3.12 마치며
회귀와 예측
4.1 단순선형회귀
4.1.1 회귀식
4.1.2 적합값과 잔차
4.1.3 최소제곱
4.1.4 예측 대 설명(프로파일링)
4.1.5 더 읽을 거리
4.2 다중선형회귀
4.2.1 킹 카운티 주택 정보 예제
4.2.2 모형 평가
4.2.3 교차타당성검사
4.2.4 모형 선택 및 단계적 회귀
4.2.5 가중회귀
4.2.6 더 읽을 거리
4.3 회귀를 이용한 예측
4.3.1 외삽의 위험4.3.2 신뢰구간과 예측구간
4.4 회귀에서의 요인변수
4.4.1 가변수 표현
4.4.2 다수의 수준을 갖는 요인변수들
4.4.3 순서가 있는 요인변수
4.5 회귀방정식 해석
4.5.1 예측변수 간 상관
4.5.2 다중공선성
4.5.3 교란변수
4.5.4 상호작용과 주효과
4.6 회귀진단
4.6.1 특잇값
4.6.2 영향값
4.6.3 이분산성, 비정규성, 오차 간 상관
4.6.4 편잔차그림과 비선형성
4.7 다항회귀와 스플라인 회귀
4.7.1 다항식
4.7.2 스플라인
4.7.3 일반화가법모형
4.7.4 더 읽을 거리
4.8 마치며
분류
5.1 나이브 베이즈
5.1.1 나이브하지 않은 베이즈 분류는 왜 현실성이 없을까?
5.1.2 나이브한 해법
5.1.3 수치형 예측변수
5.1.4 더 읽을 거리
5.2 판별분석
5.2.1 공분산행렬
5.2.2 피셔의 선형판별
5.2.3 간단한 예
5.2.4 더 읽을 거리
5.3 로지스틱 회귀
5.3.1 로지스틱 반응 함수와 로짓
5.3.2 로지스틱 회귀와 GLM
5.3.3 일반화선형모형
5.3.4 로지스틱 회귀의 예측값
5.3.5 계수와 오즈비 해석하기
5.3.6 선형회귀와 로지스틱 회귀: 유사점과 차이점
5.3.7 모델 평가하기
5.3.8 더 읽을 거리
5.4 분류 모델 평가하기
5.4.1 혼동행렬
5.4.2 희귀 클래스 문제
5.4.3 정밀도, 재현율, 특이도
5.4.4 ROC곡선
5.4.5 AUC
5.4.6 리프트
5.4.7 더 읽을 거리
5.5 불균형 데이터 다루기
5.5.1 과소표본추출
5.5.2 과잉표본추출과 상향/하향 가중치
5.5.3 데이터 생성
5.5.4 비용 기반 분류
5.5.5 예측 결과 분석
5.5.6 더 읽을 거리
5.6 마치며
통계적 머신러닝
6.1 k-최근접 이웃
6.1.1 예제: 대출 연체 예측
6.1.2 거리 지표
6.1.3 원-핫 인코더
6.1.4 표준화(정규화, z 점수)
6.1.5 k 선택하기
6.1.6 KNN을 통한 피처 엔지니어링
6.2 트리 모델
6.2.1 간단한 예제
6.2.2 재귀 분할 알고리즘
6.2.3 동질성과 불순도 측정하기
6.2.4 트리 형성 중지하기
6.2.5 연속값 예측하기
6.2.6 트리 활용하기
6.2.7 더 읽을 거리
6.3 배깅과 랜덤 포레스트
6.3.1 배깅
6.3.2 랜덤 포레스트
6.3.3 변수 중요도
6.3.4 하이퍼파라미터
6.4 부스팅
6.4.1 부스팅 알고리즘
6.4.2 XG부스트
6.4.3 정규화: 오버피팅 피하기
6.4.4 하이퍼파라미터와 교차타당성검사
6.5 마치며
비지도 학습
7.1 주성분분석
7.1.1 간단한 예제
7.1.2 주성분 계산
7.1.3 주성분 해석
7.1.4 대응분석
7.1.5 더 읽을 거리
7.2 k-평균 클러스터링
7.2.1 간단한 예제
7.2.2 k-평균 알고리즘
7.2.3 클러스터 해석
7.2.4 클러스터 개수 선정
7.3 계층적 클러스터링
7.3.1 간단한 예제
7.3.2 덴드로그램
7.3.3 병합 알고리즘
7.3.4 비유사도 측정
7.4 모델 기반 클러스터링
7.4.1 다변량정규분포
7.4.2 정규혼합
7.4.3 클러스터 개수 결정하기
7.4.4 더 읽을 거리
7.5 스케일링과 범주형 변수
7.5.1 변수 스케일링
7.5.2 지배 변수
7.5.3 범주형 데이터와 고워 거리
7.5.4 혼합 데이터의 클러스터링 문제
7.6 마치며
찾아보기 (1/3)
찾아보기 (2/3)
찾아보기 (3/3)

Content preview from 데이터 과학을 위한 통계(2판)

358

데이터 과학을 위한 통계

NOTE

모델 기반 클러스터링은 실제로 매우 활발하고 빠르게 발전하는 연구 분야이다. 본문에서 다루는

적용 범위는 아주 일부에 지나지 않는다. 실제로

mclust

도움말 파일만 해도

154

쪽 분량이다. 모델 기반 클

러스터링의 미묘한 내용까지 다루는 것은 데이터 과학자들이 그간 접한 대부분의 문제보다 더 많은 노력이

필요할 수 있다.

모델 기반 클러스터링 기술에는 몇 가지 한계가 있다. 이 방법은 기본적으로 데이터들이 모델

을 따른다는 가정이 필요하며, 클러스터링 결과는 이 가정에 따라 매우 다르다. 필요한 계산량

역시 계층적 클러스터링보다 높으므로 대용량 데이터로 확장하기가 어렵다. 마지막으로 알고

리즘이 다른 방법들보다 더 복잡하고 이용하기가 어렵다.

주요 개념

• 클러스터들이 각자 서로 다른 확률분포로부터 발생한 것으로 가정한다.

• 분포 (일반적으로 정규분포 ) 개수에 대한 가정에 따라 서로 다른 적합한 모델이 있다.

• 이 방법은 너무 많은 파라미터 (오버피팅의 원인이 될 수 있다 )를 사용하지 않으면서도 데이터에 적합한 모

델(그리고 연관된 클러스터 개수 )을 선택한다.

7.4.4

더 읽을 거리

•모델 기반 클러스터링에 대한 내용은

mclust

와

GaussianMixture

의 문서를 참고하자.

http

://

www

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791162244180

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

데이터 과학을 위한 통계(2판)

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

데이터 엔지니어를 위한 97가지 조언

파이썬으로 살펴보는 아키텍처 패턴

개발자를 위한 머신러닝&딥러닝

코드로 인프라 관리하기: 효율적인 인프라 관리를 위한 자동화 방법

Publisher Resources