
73
2
장
사전 훈련 데이터
2.3
대표적인 사전 훈련 데이터셋
공개적으로 자유롭게 이용할 수 없는 텍스트 데이터는 상당히 많습니다. 여기에는 유료
API
나
로그인 화면 뒤에 숨겨진 데이터, 유료로 제공되는 책이나 문서 등이 포함되며, 이 중 상당수는
디지털화되지 않았습니다. 구글이나 오픈
AI
와 같은 대형 기업들은 이러한 데이터를 구매할 여
력이 있습니다. 예를 들어 오픈
AI
는 월스트리트 저널, 파이낸셜 타임스 등 주요 언론사들과 데
이터 접근을 위해 수억 달러 규모의 계약
25
을 체결한 바 있습니다.
특정 도메인에 특화된 텍스트 데이터는 독점적으로 관리되며 대형 기업들만 접근할 수 있는
경우가 많습니다. 예를 들어 블룸버그
Bloomberg
는 자체 보유한 금융 데이터를 활용해 블룸버그
GPT
BloombergGPT
26
를 부분적으로 학습시켰습니다. 그러나 대형 기업들이 훈련시키는 모델조차
도 훈련 데이터의 상당 부분은 공개적으로 이용 가능한 데이터 소스에 기반합니다.
다음으로
LLM
훈련에 사용되는 대표적인 범용 사전 훈련 데이터셋 몇 가지를 살펴보겠습니다.
포괄적인 목록은 아니지만, 비공개 모델을 포함해 대부분의
LLM
은 적어도 이들 데이터 소스의
상당 부분을 사용해 훈련되었다고 볼 수 있습니다. 소셜 미디어, 금융, 바이오메디컬 등의 특정
분야에 특화된 도메인 ...