
106
1
부
LLM의 구성 요소
때문에
C4
데이터셋에서는 모유 수유와 관련된 문서들이 필터링되는 사례가 보고되었습니다.
결국, 어떤 단어가 혐오적이거나 모욕적이거나 유해한지는 사회적 맥락, 독자의 해석, 대상 청
중에 따라 달라질 수 있습니다. 단순한 키워드 기반 필터링은 이러한 복잡한 맥락을 포착하지
못합니다. 이러한 문제를 사전 훈련 단계에서 다루는 것이 효과적일지, 아니면 후속 처리 단계
에서 해결하는 것이 나을지에 관해서는 아직 연구가 진행 중입니다. 이와 관련된 다양한 후속
처리 기법은
10
장에서 다룰 예정입니다.
NOTE
_
피티아
Pythia
모델 연구진
92
은 훈련 데이터의 마지막
7
% 구간에서 남성 대명사를 여성 대명사로 대체하
는 실험을 진행했으며, 그 결과 후속 작업에서 편향이 감소하는 효과를 확인했습니다.
2.8
마치며
이번 장에서는 언어 모델을 구성하는 핵심 요소들을 정리했습니다. 구체적으로 사전 훈련 데
이터, 어휘와 토크나이저, 훈련 목표, 모델 아키텍처를 중심으로 살펴봤습니다. 또한 사전 훈
련 데이터셋을 만드는 데 필요한 주요 과정도 자세히 설명했습니다. 여기에는 언어 식별, 텍스
트 추출 및 정제, 품질 필터링, 중복 제거, 개인식별정보(
PII
) 제거, 테스트 세트 오염 방지 과
정이 포함되었습니다. 아울러, 널리 사용되는 사전 훈련