
149
4
장
아키텍처와 학습 목표
토큰이 같은 전문가를 선택하게 된다면, 여러 전문가를 통한 병렬 처리의 이점을 활용할 수 없
어 계산을 완료하는 데 추가 시간이 소요됩니다.
전문가 선택 방식에서는 각 전문가가 자신이 가장 잘 처리할 수 있는 토큰들을 선택합니다. 각
전문가가 동일한 수의 토큰을 선택하도록 지정할 수 있어 부하 균형 문제를 해결할 수 있습니
다. 그러나 이 방식은 효율적인 토큰-전문가 매칭을 어렵게 할 수 있습니다. 각 전문가는 배치
내에서 제한된 수의 토큰만 선택할 수 있기 때문입니다.
모델 업사이클링
이 책을 작성하는 현재, 공개적으로 이용 가능한
MoE
모델은 허깅 페이스에서 찾아 볼 수 있습
니다. 그렇다면 기존의 일반 트랜스포머 기반 모델을
MoE
모델로 변환할 수 있을까요? 코마쓰
자키
Komatsuzaki
연구진
17
은 이미 사전 훈련된 모델에
MoE
컴포넌트를 추가할 수 있는 업사이클링
방법을 개발했습니다. 이 방법은 기존 피드포워드 층을 전문가 수만큼
N
개 복제하고, 각 복제된
층에 기존 모델의 파라미터를 초깃값으로 설정해
MoE
모델의 구조를 구성합니다.
4.7
학습 목표
언어 모델의 아키텍처를 살펴봤으니, 이제 사전 훈련 과정에서 모델이 학습하는 작업을 알아보
겠습니다.
앞서 이 장에서 언급했듯이, 언어 모델은 자기 지도 방식으로