
189
4
장
모델 훈련
서 규제가 없는
MSE
의 최적 파라미터는
θ
1
=
2
,
θ
2
=
0
.
5
입니다 ).
그림
4-19
라쏘 대 릿지 규제
아래 두 개의 그래프도 동일하지만
ℓ
2
페널티를 사용합니다. 왼쪽 아래 그래프에서
ℓ
2
손실
은 원점에 가까울수록 줄어드는 것을 볼 수 있습니다. 따라서 경사 하강법이 원점까지 직선 경
로를 따라 갑니다. 오른쪽 아래 그래프의 등고선은 릿지 회귀의 비용 함수를 나타냅니다 (즉
ℓ
2
손실을 더한
MSE
손실 함수 ). 라쏘와 다른 점은 크게 두 가지입니다. 첫째 파라미터가 전
역 최적점에 가까워질수록 그레이디언트가 작아집니다. 따라서 경사 하강법이 자동으로 느려
지고 수렴에 도움이 됩니다(진동이 없습니다 ). 둘째
α
를 증가시킬수록 최적의 파라미터(빨간
사각형 )가 원점에 더 가까워집니다. 하지만 완전히
0
이 되지는 않습니다.
TIP
라쏘를 사용할 때 경사 하강법이 최적점 근처에서 진동하는 것을 막으려면 훈련하는 동안 점진적으로 학습
률을 감소시켜야 합니다(여전히 최적점 근처에서 진동하겠지만 스텝이 갈수록 작아지므로 수렴하게 될 것입
니다).
라쏘의 비용 함수는
θ
i
=
0
(
i
=
1
,
2
,
...
,
n
일 때 )에서 미분 가능하지 않습니다. 하지만
θ
i
=
0
일
페널티
페널티
라쏘
릿지