
449
11
장
심층 신경망 훈련하기
는 사용자 정의 콜백을 만들면 됩니다 (
self
.
model
.
optimizer
.
lr
을 바꾸어 옵티마이저의 학습
률을 업데이트할 수 있습니다 ).
50
주피터 노트북에 있는 ‘
1
사이클 스케줄링’을 참고하세요.
정리하면 지수 기반 스케줄링, 성능 기반 스케줄링,
1
사이클 스케줄링이 수렴 속도를 크게 높
일 수 있습니다.
51
한번 테스트해보세요!
11.4
규제를 사용해 과대적합 피하기
“나는 네 개의 파라미터가 있으면 코끼리 모양을 학습시킬 수 있고, 다섯 개가 있으면 코를 꿈틀
거리게 할 수 있다.”
_존 폰 노이만
John
von
Neumann
52
, 네이처
427
호에서 엔리코 페르미
Enrico
Fermi
53
가 인용함
수백만 개의 파라미터가 있으면 동물원 전체를 그려낼 수 있을지 모릅니다. 심층 신경망은 전
형적으로 수만 개, 때로는 수백만 개의 파라미터를 가지고 있습니다. 이 때문에 네트워크의 자
유도가 매우 높습니다. 즉, 대규모의 복잡한 데이터셋을 학습할 수 있다는 뜻입니다. 하지만 이
런 높은 자유도는 네트워크를 훈련 세트에 과대적합되기 쉽게 만듭니다. 규제가 필요합니다.
10
장에서 이미 최상의 규제 방법 중 하나인 조기 종료를 구현했습니다. 또한 배치 정규화는 불
안정한 그레이디언트 문제를 해결하기 위해 고안되었지만 꽤 괜찮은 규제 방법으로도 ...