Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
268
데이터 과학을 위한 통계
이 과정을 통해 얻은 부스팅 추정치는 다음과 같다.
11 2 2
ˆˆˆ
ˆ
MM
Ff f f
αα α
= + ++
잘못 분류된 관측 데이터에 가중치를 증가시킴으로써, 현재 성능이 제일 떨어지는 데이터에 대
해 더 집중해서 학습을 하도록 하는 효과를 가져온다.
α
m
값을 이용해 모델의 오차가 낮을수록
더 큰 가중치를 부여한다.
그레이디언트 부스팅은 에이다부스팅과 거의 비슷하지만, 비용함수를 최적화하는 접근법을 사
용했다는 점에서 차이가 있다. 그레이디언트 부스팅에서는 가중치를 조정하는 대신에 모델이
유사잔차
pseudo
-
residual
를 학습하도록 한다. 이는 잔차가 큰 데이터를 더 집중적으로 학습하는
효과를 가져온다. 확률적 그레이디언트 부스팅에서는 랜덤 포레스트에서와 유사하게, 매 단
계마다 데이터와 예측변수를 샘플링하는 식으로 그레이디언트 부스팅에 랜덤한 요소를 추가
한다.
6.4.2
XG
부스트
부스팅 방법 가운데 대중적으로 가장 많이 사용되는 오픈소스 소프트웨어는
XG
부스트
XGBoost
고 할 수 있다. 확률적 그레이디언트 부스팅을 구현한 이 소프트웨어는 워싱턴 대학교의 천 톈
Tianqi
Chen
와 카를로스 게스트린
Carlos
Guestrin
에 의해 처음 개발되었다. 여러 가지 옵션이 효율적
으로 구현되었고, 대부분의 데이터 과학 소프트웨어 언어를 지원하는 패키지를 제공한다.
R
서도
xgboost
패키지를 이용해
XG
부스트를 사용할 수 있다.
xgboost
함수는 우리가 직접 조정할 수 있는 다양한
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984