
237
6
장
결정 트리
지니 불순도와 엔트로피 중 어떤 것을 사용해야 할까요? 실제로는 큰 차이가 없습니다. 즉, 둘
다 비슷한 트리를 만들어냅니다. 지니 불순도가 조금 더 계산이 빠르기 때문에 기본값으로 좋습
니다. 그러나 다른 트리가 만들어지는 경우 지니 불순도가 가장 빈도 높은 클래스를 한쪽 가지
branch
로 고립시키는 경향이 있는 반면 엔트로피는 조금 더 균형 잡힌 트리를 만듭니다.
8
6.7
규제 매개변수
결정 트리는 훈련 데이터에 대한 제약 사항이 거의 없습니다 (반대로 선형 모델은 데이터가 선형
일 거라 가정합니다). 제한을 두지 않으면 트리가 훈련 데이터에 아주 가깝게 맞추려고 해서 대부
분 과대적합되기 쉽습니다. 결정 트리는 모델 파라미터가 전혀 없는 것이 아니라 (보통 많습니다 )
훈련되기 전에 파라미터 수가 결정되지 않기 때문에 이런 모델을
비파라미터 모델
nonparametric
model
이라고 부르곤 합니다. 그래서 모델 구조가 데이터에 맞춰져서 고정되지 않고 자유롭습니다. 반
대로 선형 모델 같은
파라미터 모델
parametric
model
은 미리 정의된 모델 파라미터 수를 가지므로 자
유도가 제한되고 과대적합될 위험이 줄어듭니다 (하지만 과소적합될 위험은 커집니다 ).
훈련 데이터에 대한 과대적합을 피하기 위해 학습할 때 결정 트리의 자유도를 ...