
28
GPT API를 활용한 인공지능 앱 개발(2판)
GPT
-
1
의 저자들은 논문에서
비지도 사전 학습
unsupervised
pre
-
training
단계를 도입한 새로운 학습 과
정을 제안했습니다. 이 사전 학습 단계에는 데이터에 레이블링이 필요하지 않습니다. 대신 모
델은 다음 토큰이 무엇인지 예측하도록 모델을 학습합니다. 병렬 처리가 가능한 트랜스포머 아
키텍처를 사용해 대량의 데이터에 대한 사전 학습을 수행했습니다.
GPT
-
1
모델은 사전 학습
에 약
11
,
000
권의 미출간 도서 텍스트가 포함된
BookCorpus
데이터셋을 사용했습니다. 이
데이터셋은
2015
년에 <책과 영화의 정렬: 영화 감상과 독서를 통한 이야기의 시각적 이해>
5
라
는 논문으로 과학계에 처음 소개됐으며, 토론토 대학교 웹 페이지에 공개됐습니다. 그러나 현
재 원본 데이터셋의 공식 버전은 공개적으로 접근할 수 없습니다.
GPT
-
1
모델은 다양한 기본 완성 작업에 좋은 결과를 낸다는 사실이 드러났습니다. 비지도 학
습 단계에서 모델은
BookCorpus
데이터셋의 텍스트에서 다음 항목을 예측하는 방법을 학습
했습니다. 하지만
GPT
-
1
은 소형 모델이기에 파인 튜닝 없이는 복잡한 작업을 수행할 수 없었
습니다. 따라서 수동으로 레이블링한 작은 데이터셋으로 지도형 파인 튜닝을 수행해 모델의 성