
129
4
장
아키텍처와 학습 목표
아키텍처와 학습 목표
4
CHAPTER
2
장과
3
장에서는 언어 모델을 구성하는 핵심 요소인 학습 데이터셋, 어휘집, 토크나이저를 살
펴봤습니다. 이제 모델 자체와 그 기반이 되는 아키텍처, 학습 목표에 관해 알아보겠습니다.
이 장에서는 언어 모델의 구성과 구조를 배웁니다. 오늘날 언어 모델은 대부분 트랜스포머 아
키텍처를 기반으로 하므로 이 아키텍처의 각 구성 요소를 상세히 살펴보며 이를 깊이 이해하는
데 중점을 둘 것입니다. 최근 몇 년 동안 기존 트랜스포머 아키텍처의 여러 변형과 대안들이 제
안되었습니다. 전문가 혼합
mixture
of
experts
(
MoE
) 모델을 포함한 유망한 모델들을 자세히 살펴볼
것입니다. 또한 다음 토큰 예측을 포함하여 언어 모델이 훈련되는 일반적인 학습 목표들도 검
토할 것입니다. 마지막으로, 처음부터 언어 모델을 사전 훈련하는 방법을 배우며 지난 세 장에
서 다룬 개념들을 실제로 통합해 보겠습니다.
4.1
기본 개념
현대의 거의 모든 언어 모델은
뉴런
이라는 처리 단위로 구성된 신경망을 기반으로 합니다. 현
대 신경망은 사실 인간 두뇌의 작동 방식과 완전히 다르지만, 신경망의 기본 개념과 용어들은
신경과학 분야에서 영감을 받았습니다.
신경망의 뉴런들은 특정 구성에 따라 서로 연결되어 있습니다. 두 뉴런 사이의 ...