
184
1
부
머신러닝
●
분산
분산
variance
은 훈련 데이터에 있는 작은 변동에 모델이 과도하게 민감하기 때문에 나타납니다. 자유도
가 높은 모델 (예를 들면 고차 다항 회귀 모델 )이 높은 분산을 가지기 쉬워 훈련 데이터에 과대적합되
는 경향이 있습니다.
●
줄일 수 없는 오차
줄일 수 없는 오차
irreducible
error
는 데이터 자체에 있는 잡음 때문에 발생합니다. 이 오차를 줄일 수
있는 유일한 방법은 데이터에서 잡음을 제거하는 것입니다(예를 들어 고장 난 센서 같은 데이터 소스
를 고치거나 이상치를 감지해 제거합니다 ).
모델의 복잡도가 커지면 통상적으로 분산이 늘어나고 편향은 줄어듭니다. 반대로 모델의 복잡
도가 줄어들면 편향이 커지고 분산이 작아집니다. 그래서 트레이드오프라고 부릅니다.
4.5
규제가 있는 선형 모델
1
장과
2
장에서 보았듯이 과대적합을 감소시키는 좋은 방법은 모델을 규제하는 것입니다(즉,
모델을 제한합니다). 자유도를 줄이면 데이터에 과대적합되기 더 어려워집니다. 다항 회귀 모
델을 규제하는 간단한 방법은 다항식의 차수를 감소시키는 것입니다.
선형 회귀 모델에서는 보통 모델의 가중치를 제한함으로써 규제를 가합니다. 각기 다른 방법으
로 가중치를 제한하는 ‘릿지’ 회귀, ‘라쏘’ 회귀, 엘라스틱넷을 살펴보겠습니다.
4.5.1