75
4
장
지도 학습: 모델 및 개념
4.1.2
정규화 회귀
선형 회귀 모델에 독립 변수가 많으면, 계수가 부실하게 결정되고 모델이 훈련 데이터에 과도
하게 적합화되어 정작 데이터(모델이 얼마나 좋은지 테스트하는 데 사용되는 데이터 )를 테스
트하는 데 부실하게 적합화된다. 이를 과적합 혹은 고분산이라고 한다.
과적합을 조절하는 일반적인 방법은 정규화이다. 정규화는 손실 함수에 페널티 항을 추가해 계
수가 큰 값에 이르는 것을 억제하는 방법이다. 간단하게 말하면 정규화는 예측 정확도와 해석
이 더 우수한 모델을 만들기 위해 모델 매개변수의 영향을 축소시키는 (
0
에 가깝게 축소) 페널
티 메커니즘이다. 정규화된 회귀는 선형 회귀에 비해 두 가지 이점이 있다.
●
예측 정확도
모델이 테스트 데이터에 더 좋은 성능을 보인다는 것은 모델이 테스트 데이터에 대해 더 잘 일반화된다
는 것을 의미한다. 매개변수가 너무 많은 모델은 훈련 데이터에 있는 노이즈에 적합화되는 경향이 있다.
일부 계수를
0
에 근접시킴으로써 복잡한 모델 (과도한 치우침)을 더 잘 일반화될 수 있는 모델(저분산 )
로 적합화할 수 있다.
●
해석
예측 변수가 많으면 결과의 큰 그림을 해석하거나 전달하기가 복잡할 수 있다. 일부 상세함을 희생해서
영향이 가장 큰 매개변수만을 취하는 더 작은 하위셋으로 모델을 제한하는 것도 바람직하겠다.
선형 회귀 모델을 정규화하는 일반적인 방법은 다음과 같다
●
L1
정규화 혹은 라쏘 회귀
라쏘 회귀는
L1
정규화를 수행하는데, 이 ...