
66
1
부
LLM의 구성 요소
2.1
LLM
을 만드는 구성 요소
LLM
을 만드는 데 필요한 구성 요소부터 살펴보겠습니다. 크게 네 가지 요소로 나눌 수 있습니다.
사전 훈련 데이터: 어떤 데이터로 훈련하는가?
모델을 무엇으로 훈련하는지, 즉 어떤 데이터를 기반으로 훈련하는지가 중요합니다. ‘쓰레기를 넣으면 쓰레
기가 나온다
Garbage
in
,
garbage
out
’라는 오래된 컴퓨터 과학 격언은 언어 모델링에서도 여전히 유효합니다. 이번
장에서는 널리 사용되는 사전 훈련 데이터셋을 살펴보고 모델에
양질
의 데이터를 공급하려면 어떤 전처리
과정을 거치는지 알아보겠습니다. 이러한 데이터셋을 분석하고, 데이터 구성 방식이 이후 작업에 어떤 영향
을 미치는지를 이해하도록 도와주는 다양한 도구도 함께 소개할 예정입니다.
어휘와 토크나이저: 어떤 단위를 훈련하는가?
언어를 모델링하려면 먼저 해당 언어의 어휘를 정의하고, 연속된 텍스트를 적절한 단위로 쪼개는 규칙을 정
해야 합니다. 이를 토큰화
tokenization
라고 부릅니다(
3
장에서 자세히 다룹니다). 언어학적으로 인간은 의미가 있
는 단어와 문장 단위로 언어를 처리합니다. 반면 언어 모델은 토큰 단위로 언어를 처리합니다. 이 두 처리 방
식 사이에 불일치가 있을 때 발생하는 후속 영향에 대해 살펴볼 것입니다.
훈련 목표: ...