book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스

October 2018

Beginner to intermediate

328 pages

7h 58m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

248

데이터 과학을 위한 통계

• 일반적으로 예측변수들을 표준화한다. 이를 통해 스케일이 큰 변수들의 영향력이 너무 커지지 않도록 한다.

• 예측 모델링의 첫 단계에서 종종

KNN

을 사용한다. 이렇게 얻은 값을 다시 데이터에 하나의 예측변수로 추

가해서 두 번째 단계의 (

KNN

이 아닌 ) 모델링을 위해 사용한다.

6.2

트리 모델

트리 모델은

회귀 및 분석 트리

classification

and

regression

tree

(

CART

)

의사 결정 트리

decision

tree

, 혹은 단

순히 그냥

트리

tree

라고도 불리며

1984

년 레오 브레이먼과 그의 동료들이 처음 개발한 효과적이

고 대중적인 분류(및 회귀 ) 방법이다. 트리 모델들과 여기서 파생된 강력한

랜덤 포레스트

random

forest

와

부스팅

(

절과

절 참고 ) 같은 방법들은 회귀나 분류 문제를 위해 데이터 과학에서

가장 널리 사용되는 강력한 예측 모델링 기법들의 기초라고 할 수 있다.

용어 정리

•

재귀 분할

recursive

partitioning

: 마지막 분할 영역에 해당하는 출력이 최대한 비슷한

homogeneous

결과를 보

이도록 데이터를 반복적으로 분할하는 것

•

분할값

split

value

: 분할값을 기준으로 예측변수를 그 값보다 작은 영역과 큰 영역으로 나눈다.

•

마디(노드 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

파이썬 라이브러리를 활용한 데이터 분석(2판): 영화 평점, 이름 통계, 선거 데이터 등 실사례 사용

김영근, 웨스 맥키니

스파크를 활용한 실시간 처리: 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기

김인범, 제러드 마스, 프랑수아 가릴로

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162240984