
439
11
장
심층 신경망 훈련하기
(가파른 차원)
AdaGrad
경사 하강법
(완만한 차원)
비용
그림
11-7
AdaGrad
와 경사 하강법:
AdaGrad
는 최적점을 향하여 일찍 방향을 바꿀 수 있습니다.
AdaGrad
는 간단한
2
차방정식 문제에 대해서는 잘 작동하지만 신경망을 훈련할 때 너무 일찍
멈추는 경우가 종종 있습니다. 학습률이 너무 감소되어 전역 최적점에 도착하기 전에 알고리
즘이 완전히 멈춥니다. 그래서 케라스에
Adagrad
옵티마이저가 있지만 심층 신경망에는 사용
하지 말아야 합니다(하지만 선형 회귀 같은 간단한 작업에는 효과적일 수 있습니다). 하지만
AdaGrad
를 알면 다른 적응적 학습률 옵티마이저를 이해하는 데 도움이 됩니다.
33
11.3.4
RMSProp
AdaGrad
는 너무 빨리 느려져서 전역 최적점에 수렴하지 못하는 위험이 있습니다.
RMSProp
알고리즘
34
은 (훈련 시작부터의 모든 그레이디언트가 아닌) 가장 최근 반복에서 비롯된 그레
이디언트만 누적함으로써 이 문제를 해결했습니다. 이렇게 하기 위해 알고리즘의 첫 번째 단계
에서 지수 감소를 사용합니다 (식
11
-
7
).
33
옮긴이_ 케라스에서는
optimizer
=
keras
.
optimizers
.
Adagrad
(
learning
_
rate
=
0
.
001
)
와 같이 사용합니다.
learning ...