
69
2
장
사전 훈련 데이터
2.2
사전 훈련 데이터 요구 사항
용량이 큰 모델일수록 상대적으로 샘플 효율이 높아지는 경향이 있음이 밝혀졌지만
9
, 오늘날
대부분의 언어 모델은 여전히 샘플 효율이 매우 낮습니다. 즉, 하나의 작업을 훈련하는 데 막대
한 양의 예시가 필요합니다. 이처럼 대규모 지도 학습 데이터셋을 인간 주석만으로 만드는 것
은 현실적으로 불가능하므로 대부분의 언어 모델은
자기
지도
학습
self
-
supervised
learning
방식으로
사전 훈련됩니다. 자기 지도 학습에서는 입력 데이터 안에 이미 훈련 대상이 포함됩니다.
이러한 구조 덕분에, 사실상 모든 종류의 텍스트 데이터가 사전 훈련 데이터셋에 포함될 수 있
습니다. 이론적으로는, 구조가 있는 비텍스트 신호도 텍스트 형태로 인코딩해 사전 훈련 데이
터에 활용할 수 있습니다.
1
장에서 스케일링 법칙에 관해 논의하며 더 오래, 더 많은 데이터로 훈련시키는 것만으로도 모
델 성능이 향상된다는 점을 살펴봤습니다. 또한, 이 분야의
통합
효과
consolidation
effect
덕분에 하
나의 언어 모델이 처음부터 끝까지 다양한 작업을 수행할 것으로 기대하게 되었습니다. 오늘날
하나의 모델에는 세상에 관한 사실적 질문에 답하고, 산술 및 논리적 추론을 수행하며, 코드를
작성하고, 창의적인 아이디어를 ...