
236
1
부
머신러닝
도는 특성 수와 무관하게
log
2
입니다. 그래서 큰 훈련 세트를 다룰 때도 예측 속도가
매우 빠릅니다.
훈련 알고리즘은 각 노드에서 모든 훈련 샘플의 모든 (또는
max
_
features
가 지정되었다면 그
보다는 적은 ) 특성을 비교합니다. 각 노드에서 모든 샘플의 모든 특성을 비교하면 훈련 복잡도
는
)log (mmnO ×
2
이 됩니다. 훈련 세트가 (수천 개 이하의 샘플 정도로) 작을 경우 사이킷
런은 (
presort
=
True
로 지정하면 ) 미리 데이터를 정렬하여 훈련 속도를 높일 수 있습니다.
5
하지만 훈련 세트가 클 경우에는 속도가 많이 느려집니다.
6.6
지니 불순도 또는 엔트로피?
기본적으로 지니 불순도가 사용되지만
6
criterion
매개변수를
"
entropy
"
로 지정하여
엔트
로피
불순도를 사용할 수 있습니다. 엔트로피는 분자의 무질서함을 측정하는 것으로 원래 열역
학의 개념입니다. 분자가 안정되고 질서 정연하면 엔트로피가
0
에 가깝습니다. 엔트로피는 후
에 여러 분야에 퍼졌습니다. 메시지의 평균 정보 양을 측정하는 섀넌의
정보 이론
도 여기에 포
함됩니다.
7
여기서는 모든 메시지가 동일할 때 엔트로피가
0
이 됩니다. 머신러닝에서는 불순도
의 측정 방법으로 자주 사용됩니다. 어떤 세트가 한 클래스의 샘플만 담고 있다면 ...