book

데이터 과학을 위한 통계(2판)

Name: 데이터 과학을 위한 통계(2판)
ISBN: 9791162244180

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

May 2021

Beginner to intermediate

380 pages

9h 22m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.2.1 데이터 프레임과 인덱스
1.2.2 테이블 형식이 아닌 데이터 구조
1.2.3 더 읽을 거리
1.3 위치 추정
1.3.1 평균
1.3.2 중간값과 로버스트 추정
1.3.3 예제: 인구에 따른 살인 비율의 위치 추정
1.3.4 더 읽을 거리
1.4 변이 추정
1.4.1 표준편차와 관련 추정값들
1.4.2 백분위수에 기초한 추정
1.4.3 예제: 주별 인구의 변이 추정
1.4.4 더 읽을 거리
1.5 데이터 분포 탐색하기
1.5.1 백분위수와 상자그림
1.5.2 도수분포표와 히스토그램
1.5.3 밀도 그림과 추정
1.5.4 더 읽을 거리
1.6 이진 데이터와 범주 데이터 탐색하기
1.6.1 최빈값
1.6.2 기댓값
1.6.3 확률
1.6.4 더 읽을 거리
1.7 상관관계
1.7.1 산점도
1.7.2 더 읽을 거리
1.8 두 개 이상의 변수 탐색하기
1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)
1.8.2 범주형 변수 대 범주형 변수
1.8.3 범주형 변수 대 수치형 변수
1.8.4 다변수 시각화하기
1.8.5 더 읽을 거리
1.9 마치며
데이터와 표본분포
2.1 임의표본추출과 표본편향
2.1.1 편향
2.1.2 임의 선택
2.1.3 크기와 품질: 크기는 언제 중요해질까?
2.1.4 표본평균과 모평균
2.1.5 더 읽을 거리2.2 선택편향
2.2.1 평균으로의 회귀
2.2.2 더 읽을 거리
2.3 통계학에서의 표본분포
2.3.1 중심극한정리
2.3.2 표준오차
2.3.3 더 읽을 거리
2.4 부트스트랩
2.4.1 재표본추출 대 부트스트래핑
2.4.2 더 읽을 거리2.5 신뢰구간
2.5.1 더 읽을 거리
2.6 정규분포
2.6.1 표준정규분포와 QQ 그림
2.7 긴 꼬리 분포
2.7.1 더 읽을 거리
2.8 스튜던트의 t 분포
2.8.1 더 읽을 거리
2.9 이항분포
2.9.1 더 읽을 거리
2.10 카이제곱분포
2.10.1 더 읽을 거리
2.11 F 분포
2.11.1 더 읽을 거리
2.12 푸아송 분포와 그 외 관련 분포들
2.12.1 푸아송 분포
2.12.2 지수분포
2.12.3 고장률 추정
2.12.4 베이불 분포
2.12.5 더 읽을 거리
2.13 마치며
통계적 실험과 유의성검정
3.1 A/B 검정
3.1.1 대조군은 왜 필요할까?
3.1.2 왜 하필 A/B일까? C, D, … 가 아니라?
3.1.3 더 읽을 거리
3.2 가설검정
3.2.1 귀무가설
3.2.2 대립가설
3.2.3 일원/이원 가설검정
3.2.4 더 읽을 거리
3.3 재표본추출
3.3.1 순열검정
3.3.2 예제: 웹 점착성
3.3.3 전체 및 부트스트랩 순열검정
3.3.4 순열검정: 데이터 과학의 최종 결론
3.3.5 더 읽을 거리3.4 통계적 유의성과 p 값
3.4.1 p 값
3.4.2 유의수준
3.4.3 제1종과 제2종 오류
3.4.4 데이터 과학과 p 값
3.4.5 더 읽을 거리
3.5 t 검정
3.5.1 더 읽을 거리
3.6 다중검정
3.6.1 더 읽을 거리
3.7 자유도
3.7.1 더 읽을 거리
3.8 분산분석
3.8.1 F 통계량
3.8.2 이원 분산분석
3.8.3 더 읽을 거리
3.9 카이제곱검정
3.9.1 카이제곱검정: 재표본추출 방법
3.9.2 카이제곱검정: 통계적 이론
3.9.3 피셔의 정확검정
3.9.4 데이터 과학과의 관련성
3.9.5 더 읽을 거리
3.10 멀티암드 밴딧 알고리즘
3.10.1 더 읽을 거리
3.11 검정력과 표본크기
3.11.1 표본크기
3.11.2 더 읽을 거리
3.12 마치며
회귀와 예측
4.1 단순선형회귀
4.1.1 회귀식
4.1.2 적합값과 잔차
4.1.3 최소제곱
4.1.4 예측 대 설명(프로파일링)
4.1.5 더 읽을 거리
4.2 다중선형회귀
4.2.1 킹 카운티 주택 정보 예제
4.2.2 모형 평가
4.2.3 교차타당성검사
4.2.4 모형 선택 및 단계적 회귀
4.2.5 가중회귀
4.2.6 더 읽을 거리
4.3 회귀를 이용한 예측
4.3.1 외삽의 위험4.3.2 신뢰구간과 예측구간
4.4 회귀에서의 요인변수
4.4.1 가변수 표현
4.4.2 다수의 수준을 갖는 요인변수들
4.4.3 순서가 있는 요인변수
4.5 회귀방정식 해석
4.5.1 예측변수 간 상관
4.5.2 다중공선성
4.5.3 교란변수
4.5.4 상호작용과 주효과
4.6 회귀진단
4.6.1 특잇값
4.6.2 영향값
4.6.3 이분산성, 비정규성, 오차 간 상관
4.6.4 편잔차그림과 비선형성
4.7 다항회귀와 스플라인 회귀
4.7.1 다항식
4.7.2 스플라인
4.7.3 일반화가법모형
4.7.4 더 읽을 거리
4.8 마치며
분류
5.1 나이브 베이즈
5.1.1 나이브하지 않은 베이즈 분류는 왜 현실성이 없을까?
5.1.2 나이브한 해법
5.1.3 수치형 예측변수
5.1.4 더 읽을 거리
5.2 판별분석
5.2.1 공분산행렬
5.2.2 피셔의 선형판별
5.2.3 간단한 예
5.2.4 더 읽을 거리
5.3 로지스틱 회귀
5.3.1 로지스틱 반응 함수와 로짓
5.3.2 로지스틱 회귀와 GLM
5.3.3 일반화선형모형
5.3.4 로지스틱 회귀의 예측값
5.3.5 계수와 오즈비 해석하기
5.3.6 선형회귀와 로지스틱 회귀: 유사점과 차이점
5.3.7 모델 평가하기
5.3.8 더 읽을 거리
5.4 분류 모델 평가하기
5.4.1 혼동행렬
5.4.2 희귀 클래스 문제
5.4.3 정밀도, 재현율, 특이도
5.4.4 ROC곡선
5.4.5 AUC
5.4.6 리프트
5.4.7 더 읽을 거리
5.5 불균형 데이터 다루기
5.5.1 과소표본추출
5.5.2 과잉표본추출과 상향/하향 가중치
5.5.3 데이터 생성
5.5.4 비용 기반 분류
5.5.5 예측 결과 분석
5.5.6 더 읽을 거리
5.6 마치며
통계적 머신러닝
6.1 k-최근접 이웃
6.1.1 예제: 대출 연체 예측
6.1.2 거리 지표
6.1.3 원-핫 인코더
6.1.4 표준화(정규화, z 점수)
6.1.5 k 선택하기
6.1.6 KNN을 통한 피처 엔지니어링
6.2 트리 모델
6.2.1 간단한 예제
6.2.2 재귀 분할 알고리즘
6.2.3 동질성과 불순도 측정하기
6.2.4 트리 형성 중지하기
6.2.5 연속값 예측하기
6.2.6 트리 활용하기
6.2.7 더 읽을 거리
6.3 배깅과 랜덤 포레스트
6.3.1 배깅
6.3.2 랜덤 포레스트
6.3.3 변수 중요도
6.3.4 하이퍼파라미터
6.4 부스팅
6.4.1 부스팅 알고리즘
6.4.2 XG부스트
6.4.3 정규화: 오버피팅 피하기
6.4.4 하이퍼파라미터와 교차타당성검사
6.5 마치며
비지도 학습
7.1 주성분분석
7.1.1 간단한 예제
7.1.2 주성분 계산
7.1.3 주성분 해석
7.1.4 대응분석
7.1.5 더 읽을 거리
7.2 k-평균 클러스터링
7.2.1 간단한 예제
7.2.2 k-평균 알고리즘
7.2.3 클러스터 해석
7.2.4 클러스터 개수 선정
7.3 계층적 클러스터링
7.3.1 간단한 예제
7.3.2 덴드로그램
7.3.3 병합 알고리즘
7.3.4 비유사도 측정
7.4 모델 기반 클러스터링
7.4.1 다변량정규분포
7.4.2 정규혼합
7.4.3 클러스터 개수 결정하기
7.4.4 더 읽을 거리
7.5 스케일링과 범주형 변수
7.5.1 변수 스케일링
7.5.2 지배 변수
7.5.3 범주형 데이터와 고워 거리
7.5.4 혼합 데이터의 클러스터링 문제
7.6 마치며
찾아보기 (1/3)
찾아보기 (2/3)
찾아보기 (3/3)

Content preview from 데이터 과학을 위한 통계(2판)

252

데이터 과학을 위한 통계

•

민감도

sensitivity

을 정확히

로 분류한 비율 (유의어 : 재현율

recall

)

•

특이도

specificity

을 정확히

으로 분류한 비율

•

정밀도

precision

이라고 예측한 것들 중에

이 맞는 경우의 비율

•

ROC

곡선

ROC

curve

: 민감도와 특이성을 표시한 그림

•

리프트

lift

: 모델이 다른 확률 컷오프에 대해 (비교적 드문 )

을 얼마나 더 효과적으로 구분하는지 나타내

는 측정 지표

분류 성능을 측정하는 가장 간단한 방법은 정확히 예측한 것들의 비율, 즉 정확도가 얼마인지

보는 것이다. 정확도는 아래 수식과 같다.

정확도 =

∑

참 양성 +

∑

참 음성

표본 크기

대부분의 분류 알고리즘에서는 각 데이터에 대해

이 될 확률값을 추정하여 할당한다.

가장

기본적인 컷오프 기준값은

, 즉

%이다. 확률이

보다 크면 분류 결과는

, 그렇지 않으

면

이 된다. 또 다른 방법은, 실제 데이터에서

이 차지하는 비율을 컷오프로 사용하는 방법

이 있다.

5.4.1

혼동행렬

은 분류 결과를 나타내는 가장 대표적인 행렬이다. 혼동행렬은 응답 유형별로 정확한

예측과 잘못된 예측의 수를 한 번에 보여주는 표다.

과 파이썬에서는 여러 가지 패키지를 사

용하여 혼동행렬을 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9791162244180

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

데이터 과학을 위한 통계(2판)

by 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

데이터 엔지니어를 위한 97가지 조언

파이썬으로 살펴보는 아키텍처 패턴

개발자를 위한 머신러닝&딥러닝

코드로 인프라 관리하기: 효율적인 인프라 관리를 위한 자동화 방법

Publisher Resources