
104
1
부
LLM의 구성 요소
연습 문제 ●●●
위키백과는 거의 모든
LLM
의 훈련 데이터로 사용됩니다. 인터넷에 직접 접근할 수 없는
LLM
에
위키백과의 잘 알려지지 않은 문서에 등장하는 사실을 질문해 보세요. 올바른 답변을 하나요? 이
어서 위키백과에서 널리 알려진 문서에 있는 사실을 질문해 보세요. 답변 정확도에서 차이를 느
낄 수 있나요?
2.7
사전 훈련 데이터셋의 편향과 공정성 문제
대형 언어 모델을 제품화하는 과정에서는 다양한 윤리적 문제가 발생합니다. 특히, 모델 내에
존재하는 심각한 편향과 공정성 문제는 여러 활용 사례에 대해 출시를 보류하게 만드는 주요
원인이 됩니다. 이 절에서는 사전 훈련 데이터의 수집 및 필터링 과정과 관련된 편향과 공정성
문제를 다루겠습니다.
LLM
은 방대한 규모의 데이터를 훈련하므로 단순히 언어만을 모델링하는 것이 아니라 우리가
살아가는 세상 자체를 모델링하게 됩니다. 따라서 ‘세상을 있는 그대로 모델링할 것인가, 아니
면 우리가 바라는 모습으로 모델링할 것인가?’라는 중요한 질문이 제기됩니다.
인터넷은 증오, 폭력, 모욕적 언어가 넘쳐나는 공간이며, 인간 본성의 어두운 면이 표출되기도
합니다. 인터넷 텍스트에는 오랜 세월에 걸쳐 형성된 사회적 편견이 자연스럽게 스며듭니다.
예를 들어
The
Pile
데이터셋 분석 ...