104
2
부
지도 학습
서포트 벡터 머신과 랜덤 포레스트는 선형 회귀, 로지스틱 회귀, 경사 부스팅, 인공 신경망에
비해 과적합에 안정적이다. 과적합의 정도는 데이터 크기, 모델 튜닝과 같은 매개변수에 의존
한다. 또한 경사 부스팅과 같은 부스팅 방법은 랜덤 포레스트와 같은 배깅 방법에 비해 과적합
위험성이 크다. 경사 부스팅은 편향을 최소화하지 분산을 최소화하지는 않는다.
선형 및 로지스틱 회귀 모델은 방대한 데이터셋과 특성을 처리할 수 없다. 반면에 결정 트리,
앙상블 방법과 인공 신경망 모델은 방대한 데이터셋과 특성을 처리할 수 있다. 데이터셋이 작
은 경우, 일반적으로 선형 및 로지스틱 회귀 모델이 더 좋은 성능을 보인다. 선형 모델은 (
7
장
에서 살펴볼 ) 변수 축소 기술로 방대한 데이터셋을 처리할 수 있다. 인공 신경망의 성능은 데
이터셋 규모가 클수록 향상된다.
선형 회귀, 로지스틱 회귀, 결정 트리 모델은 비교적 단순해 앙상블 방법 및 인공 신경망 모델
에 비해 해석성이 좋다.
4.3.2
모델 균형
모델을 선택할 때 때로는 여러 요소를 절충한다.
ANN
,
SVM
, 일부 앙상블 방법을 사용해 매우
정확한 예측 모델을 만들 수 있지만, 단순성과 해석성이 부족할 수 있으며 훈련하는 데 상당한
자원이 필요할 수 있다.
최종 모델을 선택할 때 예측 성능이 가장 중요한 목표라면 해석성이 낮은 모델을 선택한다. 모
델이 어떻게 동작하고 예측하는지 설명할 필요가 없다면 말이다. 하지만 모델의 해석성이 결정
적인 경우도 있다.
금융 분야에서