
187
Chapter 4 -
신경망을 위한 최적화
이 과정의 문제점은 수천 개의 데이터 포인트가 있는 대규모 훈련 데이터셋과 수천 개의 가중
치가 있는 신경망에서 훈련 데이터셋의 모든 데이터 포인트에 대해 훈련 함수, 손실 함수, 손실
함수의 기울기를 계산하는 데 너무 많은 비용이 든다는 점이다. 해결 방법은 이러한 과정을 무
작위화하는 것이다. 훈련 데이터셋의 아주 작은 부분을 무작위로 선택하여 훈련 함수, 손실 함
수, 손실 함수의 기울기를 계산하면 계산 비용이 대폭 줄어든다.
훈련 데이터셋의 작은 부분을 무작위로 선택(원칙적으로는 복원 추출해야 하지만 실무에서는
비복원 추출함)하는 것을 특정 지점에 수렴할 때까지 또는 검증 데이터셋에 대한 훈련 함수의
성능에 의해 결정된 횟수까지 반복한다. 이때 훈련 데이터셋의 모든 데이터 포인트를 한 번씩
살펴보는 것을
1
에포크
epoch
라고 한다.
확률적 경사 하강법은 놀라운 성능을 발휘하며 신경망 훈련의 필수 요소가 되었다.
4.4.6
가중치 초기화
우리는 이미 모든 가중치를
0
또는 동일한 값으로 초기화하는 것이 매우 나쁘다는 것을 알고
있다. 따라서 초기 가중치
을 [-
1
,
1
],[
0
,
1
],[-
0
.
3
,
0
.
3
]과 같이 작은 구간의 균등 분포 또는
미리 선택된 평균과 분산으로 결정된 가우스 분포에서 샘플링하는 ...