
858
3
부
부록
사 하강법 스텝을 수행합니다. 역전파 단계는 모델 파라미터가 비용 함수를 (희망하건대)
최소화하는 값으로 수렴할 때까지 훈련 배치에서 일반적으로 수천 혹은 수백만 번 수행됩
니다. 그래디언트를 계산하기 위해 역전파는 후진 모드 자동 미분을 사용합니다 (역전파가
발명되었을 때는 이렇게 불리진 않았지만 이 기술은 역사적으로 여러 번 재발명되었습니
다). 후진 모드 자동 미분은 계산 그래프의 정방향 계산에서 현재 훈련 배치에 대한 모든
노드의 값을 구합니다. 그다음에 역방향 계산에서 한번에 모든 그래디언트를 구합니다 (더
자세한 내용은 부록
D
를 참조하세요). 그렇다면 무엇이 다른 걸까요? 역전파는 그래디언
트 계산과 경사 하강법 스텝을 여러 번 수행하여 인공 신경망을 훈련시키는 전체 프로세스
를 의미합니다. 이와 다르게 후진 모드 자동 미분은 그래디언트를 효과적으로 계산하는 하
나의 기법으로 역전파에서 사용됩니다.
9
.
기본
MLP
에서 바꿀 수 있는 하이퍼파라미터는 은닉층 수, 각 은닉층의 뉴런 수, 각 은닉
층과 출력층에서 사용하는 활성화 함수입니다.
7
일반적으로
ReLU
(또는 이 함수의 변종.
11
장 참조 )가 은닉층의 활성화 함수 기본값으로 좋습니다. 출력층에서는 일반적으로 이진
분류에서는 로지스틱 활성화 함수, 다중 분류에서는 소프트맥스 ...