
131
4
장
아키텍처와 학습 목표
출력값과 비교합니다. 모델의 가중치는 다음에 같은 입력이 들어왔을 때 출력값이 정답에 더
가까워지도록 조정됩니다.
실제로 이러한 적응 과정은
손실
함수
loss
function
를 통해 구현됩니다. 모델의 목표는 모델 출력과
정답 사이의 차이인 손실을 최소화하는 것입니다. 손실을 최소화하기 위해 가중치는 경사 하강
법
gradient
descent
에 기반한 역전파
backpropagation
를 사용해 업데이트됩니다. 모델 훈련에 본격적으로
들어가기 전에 이 알고리즘에 대한 직관적인 이해를 갖추기를 강력히 권장합니다.
자기 지도 학습과 지도 학습의 차이
사실 자기 지도 학습과 지도 학습의 구분은 인위적입니다. ‘지도 학습’이라는 용어는 입력-출력
쌍을 사용한 예시 기반 학습을 설명하는 데 사용됩니다. 훈련 데이터셋을 만들 때 출력값은 일반
적으로 사람이나 컴퓨터가 주석을 달아 제공합니다. 반면 자기 지도 학습에서는 출력 레이블이
이미 자연스럽게 입력의 일부로 존재하므로 별도로 주석을 달 필요가 없습니다. 예를 들어 다음
토큰 예측이라는 학습 목표가 있는 인터넷상의 웹 텍스트가 그렇습니다. 다음 토큰 예측에 대한
정답은 입력 자체 안에 이미 존재합니다.
4.2
의미 표현하기
앞에서 신경망 기반 아키텍처를 설명하면서, 입력 텍스트가 ...