
254
1
부
머신러닝
과 샘플을 모두 샘플링하는 것을
랜덤 패치 방식
random
patches
method
9
이라고 합니다. 훈련 샘플
을 모두 사용하고 (
bootstrap
=
False
이고
max
_
samples
=
1
.
0
로 설정 ) 특성은 샘플링하는
(
bootstrap
_
features
=
True
그리고/또는
max
_
features
는
1
.
0
보다 작게 설정) 것을
랜덤
서브스페이스 방식
random
subspaces
method
10
이라고 합니다.
특성 샘플링은 더 다양한 예측기를 만들며 편향을 늘리는 대신 분산을 낮춥니다.
7.4
랜덤 포레스트
앞서 언급했듯이 랜덤 포레스트
11
는 일반적으로 배깅 방법(또는 페이스팅)을 적용한 결정 트
리의 앙상블입니다. 전형적으로
max
_
samples
를 훈련 세트의 크기로 지정합니다.
12
Bagging
Classifier
에
DecisionTreeClassifier
를 넣어 만드는 대신 결정 트리에 최적화되어 사
용하기 편리한
RandomForestClassifier
를 사용할 수 있습니다(비슷하게 회귀 문제를 위한
RandomForestRegressor
가 있습니다).
13
다음은 (최대
16
개의 리프 노드를 갖는)
500
개 트
리로 이뤄진 랜덤 포레스트 분류기를 여러
CPU
코어에서
14
훈련시키는 코드입니다.
from sklearn.ensemble ...