268
데이터 과학을 위한 통계
이 과정을 통해 얻은 부스팅 추정치는 다음과 같다.
ˆ
Ff f f
αα α
= + ++
잘못 분류된 관측 데이터에 가중치를 증가시킴으로써, 현재 성능이 제일 떨어지는 데이터에 대
해 더 집중해서 학습을 하도록 하는 효과를 가져온다.
m
값을 이용해 모델의 오차가 낮을수록
더 큰 가중치를 부여한다.
그레이디언트 부스팅은 에이다부스팅과 거의 비슷하지만, 비용함수를 최적화하는 접근법을 사
용했다는 점에서 차이가 있다. 그레이디언트 부스팅에서는 가중치를 조정하는 대신에 모델이
유사잔차
pseudo
-
residual
를 학습하도록 한다. 이는 잔차가 큰 데이터를 더 집중적으로 학습하는
효과를 가져온다. 확률적 그레이디언트 부스팅에서는 랜덤 포레스트에서와 유사하게, 매 단
계마다 데이터와 예측변수를 샘플링하는 식으로 그레이디언트 부스팅에 랜덤한 요소를 추가
한다.
6.4.2
XG
부스트
부스팅 방법 가운데 대중적으로 가장 많이 사용되는 오픈소스 소프트웨어는
XG
부스트
XGBoost
라
고 할 수 있다. 확률적 그레이디언트 부스팅을 구현한 이 소프트웨어는 워싱턴 대학교의 천 톈
치
Tianqi
Chen
와 카를로스 게스트린
Carlos
Guestrin
에 의해 처음 개발되었다. 여러 가지 옵션이 효율적
으로 구현되었고, 대부분의 데이터 과학 소프트웨어 언어를 지원하는 패키지를 제공한다.
R
에
서도
xgboost
패키지를 이용해
XG
부스트를 사용할 수 있다.
xgboost
함수는 우리가 직접 조정할 수 있는 다양한