
429
10
장
케라스를 사용한 인공 신경망 소개
심지어
2018
년
4
월 얀 르쿤
Yann
LeCun
은 ‘여러분 주변에
32
보다 큰 미니배치를 사용하는 사람
이 있으면 말려주세요’라고 트윗을 보냈습니다.
42
그는 작은 배치가 적은 훈련 시간으로 더 좋
은 모델을 만들기 때문에 작은 배치 (
2
에서
32
까지 )를 사용하는 것이 바람직하다는 도미니크
마스터스
Dominic
Masters
와 카를로 루스키
Carlo
Luschi
의
2018
년 논문
43
을 인용했습니다. 그러나 반대
의견도 있습니다.
2017
년 일래드 호퍼
Elad
Hoffer
등의 논문
44
과 프리야 고얄
Priya
Goyal
등의 논문
45
은 학습률 예열
warming
up
(즉, 작은 학습률로 훈련을 시작해서 점점 학습률을 크게 합니다.
11
장
에서 다룹니다) 같은 다양한 기법을 사용하면 매우 큰 배치 크기(
8
,
192
까지 )를 사용할 수 있
다고 밝혔습니다. 큰 배치 크기는 일반화 성능에 영향을 미치지 않고 훈련 시간을 매우 단축합
니다. 따라서 한 가지 전략은 학습률 예열을 사용해 큰 배치 크기를 시도해보는 것입니다. 만약
훈련이 불안정하거나 최종 성능이 만족스럽지 못하면 작은 배치 크기를 사용해보세요.
46
활성화 함수
이 장의 서두에 활성화 함수를 선택하는 방법을 소개했습니다. 일반적으로
ReLU
활성화 ...