
169
4
장
모델 훈련
인가?’와 같은 질문입니다. 그리고 같은 질문을 북쪽에 대해서도 합니다(
3
차원 이상의 세상이
라 가정하면 다른 모든 차원에 대해서도 반복합니다 ). [식
4
-
5
]는 파라미터
θ
j
에 대한 비용 함
수의 편도함수
(
θ
θ
MSE
j
∂
입니다.
식
4-5
비용 함수의 편도함수
12
( )
∑
=
−=
∂
∂
m
i
j
iiT
j
xyx
m
MSE
1
2
)(
)()(
)(
θ
θ
θ
편도함수를 각각 계산하는 대신 [식
4
-
6
]을 사용하여 한꺼번에 계산할 수 있습니다. 그레이디
언트 벡터
θ
θ
MSE∇
는 비용 함수의 (모델 파라미터마다 한 개씩인) 편도함수를 모두 담고
있습니다.
13
식
4-6
비용 함수의 그레이디언트 벡터
)(
)(
MSE
)(
MSE
)(
MSE
)(
MSE
y
m
T
−=
∂
∂
∂
∂
∂
∂
=
∇
θ
θ
θ
θ
θ
θ
θ
θ
θ
XX
2
1
0
n
CAUTION_
이 공식은 매 경사 하강법 스텝에서 전체 훈련 세트
X
에 대해 계산합니다! 그래서 이 알고리즘
을
배치 경사 하강법
batch
gradient
descent
이라고 합니다. 즉, 매 스텝에서 훈련 데이터 전체를 사용합니다(사실
전체 경사 하강법
full
gradient
descent
이 더 적절한 이름 같습니다). 이런 이유로 매우 큰 훈련 세트에서는 아주 느
립니다(잠시 후에 훨씬 빠른 경사 하강법 알고리즘을 볼 것입니다). ...