데이터 과학을 위한 통계(2판)

Book description

통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 흡수할 수 있다. 2판에는 기존 R 코드와 호응하는 파이썬 코드를 새롭게 추가했다. 이 책으로 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭나길 바란다.

Table of contents

  1. 지은이 옮긴이 소개
  2. 옮긴이의 글
  3. 이 책에 대하여
  4. 감사의 글
  5. CONTENTS (1/2)
  6. CONTENTS (2/2)
  7. 탐색적 데이터 분석
    1. 1.1 정형화된 데이터의 요소
      1. 1.1.1 더 읽을 거리
    2. 1.2 테이블 데이터
      1. 1.2.1 데이터 프레임과 인덱스
      2. 1.2.2 테이블 형식이 아닌 데이터 구조
      3. 1.2.3 더 읽을 거리
    3. 1.3 위치 추정
      1. 1.3.1 평균
      2. 1.3.2 중간값과 로버스트 추정
      3. 1.3.3 예제: 인구에 따른 살인 비율의 위치 추정
      4. 1.3.4 더 읽을 거리
    4. 1.4 변이 추정
      1. 1.4.1 표준편차와 관련 추정값들
      2. 1.4.2 백분위수에 기초한 추정
      3. 1.4.3 예제: 주별 인구의 변이 추정
      4. 1.4.4 더 읽을 거리
    5. 1.5 데이터 분포 탐색하기
      1. 1.5.1 백분위수와 상자그림
      2. 1.5.2 도수분포표와 히스토그램
      3. 1.5.3 밀도 그림과 추정
      4. 1.5.4 더 읽을 거리
    6. 1.6 이진 데이터와 범주 데이터 탐색하기
      1. 1.6.1 최빈값
      2. 1.6.2 기댓값
      3. 1.6.3 확률
      4. 1.6.4 더 읽을 거리
    7. 1.7 상관관계
      1. 1.7.1 산점도
      2. 1.7.2 더 읽을 거리
    8. 1.8 두 개 이상의 변수 탐색하기
      1. 1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)
      2. 1.8.2 범주형 변수 대 범주형 변수
      3. 1.8.3 범주형 변수 대 수치형 변수
      4. 1.8.4 다변수 시각화하기
      5. 1.8.5 더 읽을 거리
    9. 1.9 마치며
  8. 데이터와 표본분포
    1. 2.1 임의표본추출과 표본편향
      1. 2.1.1 편향
      2. 2.1.2 임의 선택
      3. 2.1.3 크기와 품질: 크기는 언제 중요해질까?
      4. 2.1.4 표본평균과 모평균
      5. 2.1.5 더 읽을 거리
    2. 2.2 선택편향
      1. 2.2.1 평균으로의 회귀
      2. 2.2.2 더 읽을 거리
    3. 2.3 통계학에서의 표본분포
      1. 2.3.1 중심극한정리
      2. 2.3.2 표준오차
      3. 2.3.3 더 읽을 거리
    4. 2.4 부트스트랩
      1. 2.4.1 재표본추출 대 부트스트래핑
      2. 2.4.2 더 읽을 거리
    5. 2.5 신뢰구간
      1. 2.5.1 더 읽을 거리
    6. 2.6 정규분포
      1. 2.6.1 표준정규분포와 QQ 그림
    7. 2.7 긴 꼬리 분포
      1. 2.7.1 더 읽을 거리
    8. 2.8 스튜던트의 t 분포
      1. 2.8.1 더 읽을 거리
    9. 2.9 이항분포
      1. 2.9.1 더 읽을 거리
    10. 2.10 카이제곱분포
      1. 2.10.1 더 읽을 거리
    11. 2.11 F 분포
      1. 2.11.1 더 읽을 거리
    12. 2.12 푸아송 분포와 그 외 관련 분포들
      1. 2.12.1 푸아송 분포
      2. 2.12.2 지수분포
      3. 2.12.3 고장률 추정
      4. 2.12.4 베이불 분포
      5. 2.12.5 더 읽을 거리
    13. 2.13 마치며
  9. 통계적 실험과 유의성검정
    1. 3.1 A/B 검정
      1. 3.1.1 대조군은 왜 필요할까?
      2. 3.1.2 왜 하필 A/B일까? C, D, … 가 아니라?
      3. 3.1.3 더 읽을 거리
    2. 3.2 가설검정
      1. 3.2.1 귀무가설
      2. 3.2.2 대립가설
      3. 3.2.3 일원/이원 가설검정
      4. 3.2.4 더 읽을 거리
    3. 3.3 재표본추출
      1. 3.3.1 순열검정
      2. 3.3.2 예제: 웹 점착성
      3. 3.3.3 전체 및 부트스트랩 순열검정
      4. 3.3.4 순열검정: 데이터 과학의 최종 결론
      5. 3.3.5 더 읽을 거리
    4. 3.4 통계적 유의성과 p 값
      1. 3.4.1 p 값
      2. 3.4.2 유의수준
      3. 3.4.3 제1종과 제2종 오류
      4. 3.4.4 데이터 과학과 p 값
      5. 3.4.5 더 읽을 거리
    5. 3.5 t 검정
      1. 3.5.1 더 읽을 거리
    6. 3.6 다중검정
      1. 3.6.1 더 읽을 거리
    7. 3.7 자유도
      1. 3.7.1 더 읽을 거리
    8. 3.8 분산분석
      1. 3.8.1 F 통계량
      2. 3.8.2 이원 분산분석
      3. 3.8.3 더 읽을 거리
    9. 3.9 카이제곱검정
      1. 3.9.1 카이제곱검정: 재표본추출 방법
      2. 3.9.2 카이제곱검정: 통계적 이론
      3. 3.9.3 피셔의 정확검정
      4. 3.9.4 데이터 과학과의 관련성
      5. 3.9.5 더 읽을 거리
    10. 3.10 멀티암드 밴딧 알고리즘
      1. 3.10.1 더 읽을 거리
    11. 3.11 검정력과 표본크기
      1. 3.11.1 표본크기
      2. 3.11.2 더 읽을 거리
    12. 3.12 마치며
  10. 회귀와 예측
    1. 4.1 단순선형회귀
      1. 4.1.1 회귀식
      2. 4.1.2 적합값과 잔차
      3. 4.1.3 최소제곱
      4. 4.1.4 예측 대 설명(프로파일링)
      5. 4.1.5 더 읽을 거리
    2. 4.2 다중선형회귀
      1. 4.2.1 킹 카운티 주택 정보 예제
      2. 4.2.2 모형 평가
      3. 4.2.3 교차타당성검사
      4. 4.2.4 모형 선택 및 단계적 회귀
      5. 4.2.5 가중회귀
      6. 4.2.6 더 읽을 거리
    3. 4.3 회귀를 이용한 예측
      1. 4.3.1 외삽의 위험
      2. 4.3.2 신뢰구간과 예측구간
    4. 4.4 회귀에서의 요인변수
      1. 4.4.1 가변수 표현
      2. 4.4.2 다수의 수준을 갖는 요인변수들
      3. 4.4.3 순서가 있는 요인변수
    5. 4.5 회귀방정식 해석
      1. 4.5.1 예측변수 간 상관
      2. 4.5.2 다중공선성
      3. 4.5.3 교란변수
      4. 4.5.4 상호작용과 주효과
    6. 4.6 회귀진단
      1. 4.6.1 특잇값
      2. 4.6.2 영향값
      3. 4.6.3 이분산성, 비정규성, 오차 간 상관
      4. 4.6.4 편잔차그림과 비선형성
    7. 4.7 다항회귀와 스플라인 회귀
      1. 4.7.1 다항식
      2. 4.7.2 스플라인
      3. 4.7.3 일반화가법모형
      4. 4.7.4 더 읽을 거리
    8. 4.8 마치며
  11. 분류
    1. 5.1 나이브 베이즈
      1. 5.1.1 나이브하지 않은 베이즈 분류는 왜 현실성이 없을까?
      2. 5.1.2 나이브한 해법
      3. 5.1.3 수치형 예측변수
      4. 5.1.4 더 읽을 거리
    2. 5.2 판별분석
      1. 5.2.1 공분산행렬
      2. 5.2.2 피셔의 선형판별
      3. 5.2.3 간단한 예
      4. 5.2.4 더 읽을 거리
    3. 5.3 로지스틱 회귀
      1. 5.3.1 로지스틱 반응 함수와 로짓
      2. 5.3.2 로지스틱 회귀와 GLM
      3. 5.3.3 일반화선형모형
      4. 5.3.4 로지스틱 회귀의 예측값
      5. 5.3.5 계수와 오즈비 해석하기
      6. 5.3.6 선형회귀와 로지스틱 회귀: 유사점과 차이점
      7. 5.3.7 모델 평가하기
      8. 5.3.8 더 읽을 거리
    4. 5.4 분류 모델 평가하기
      1. 5.4.1 혼동행렬
      2. 5.4.2 희귀 클래스 문제
      3. 5.4.3 정밀도, 재현율, 특이도
      4. 5.4.4 ROC곡선
      5. 5.4.5 AUC
      6. 5.4.6 리프트
      7. 5.4.7 더 읽을 거리
    5. 5.5 불균형 데이터 다루기
      1. 5.5.1 과소표본추출
      2. 5.5.2 과잉표본추출과 상향/하향 가중치
      3. 5.5.3 데이터 생성
      4. 5.5.4 비용 기반 분류
      5. 5.5.5 예측 결과 분석
      6. 5.5.6 더 읽을 거리
    6. 5.6 마치며
  12. 통계적 머신러닝
    1. 6.1 k-최근접 이웃
      1. 6.1.1 예제: 대출 연체 예측
      2. 6.1.2 거리 지표
      3. 6.1.3 원-핫 인코더
      4. 6.1.4 표준화(정규화, z 점수)
      5. 6.1.5 k 선택하기
      6. 6.1.6 KNN을 통한 피처 엔지니어링
    2. 6.2 트리 모델
      1. 6.2.1 간단한 예제
      2. 6.2.2 재귀 분할 알고리즘
      3. 6.2.3 동질성과 불순도 측정하기
      4. 6.2.4 트리 형성 중지하기
      5. 6.2.5 연속값 예측하기
      6. 6.2.6 트리 활용하기
      7. 6.2.7 더 읽을 거리
    3. 6.3 배깅과 랜덤 포레스트
      1. 6.3.1 배깅
      2. 6.3.2 랜덤 포레스트
      3. 6.3.3 변수 중요도
      4. 6.3.4 하이퍼파라미터
    4. 6.4 부스팅
      1. 6.4.1 부스팅 알고리즘
      2. 6.4.2 XG부스트
      3. 6.4.3 정규화: 오버피팅 피하기
      4. 6.4.4 하이퍼파라미터와 교차타당성검사
    5. 6.5 마치며
  13. 비지도 학습
    1. 7.1 주성분분석
      1. 7.1.1 간단한 예제
      2. 7.1.2 주성분 계산
      3. 7.1.3 주성분 해석
      4. 7.1.4 대응분석
      5. 7.1.5 더 읽을 거리
    2. 7.2 k-평균 클러스터링
      1. 7.2.1 간단한 예제
      2. 7.2.2 k-평균 알고리즘
      3. 7.2.3 클러스터 해석
      4. 7.2.4 클러스터 개수 선정
    3. 7.3 계층적 클러스터링
      1. 7.3.1 간단한 예제
      2. 7.3.2 덴드로그램
      3. 7.3.3 병합 알고리즘
      4. 7.3.4 비유사도 측정
    4. 7.4 모델 기반 클러스터링
      1. 7.4.1 다변량정규분포
      2. 7.4.2 정규혼합
      3. 7.4.3 클러스터 개수 결정하기
      4. 7.4.4 더 읽을 거리
    5. 7.5 스케일링과 범주형 변수
      1. 7.5.1 변수 스케일링
      2. 7.5.2 지배 변수
      3. 7.5.3 범주형 데이터와 고워 거리
      4. 7.5.4 혼합 데이터의 클러스터링 문제
    6. 7.6 마치며
  14. 찾아보기 (1/3)
  15. 찾아보기 (2/3)
  16. 찾아보기 (3/3)

Product information

  • Title: 데이터 과학을 위한 통계(2판)
  • Author(s): 이준용, 피터 브루스, 앤드루 브루스, 피터 게데크
  • Release date: May 2021
  • Publisher(s): Hanbit Media, Inc.
  • ISBN: 9791162244180