
117
3
장
어휘와 토큰화
토큰화 없는 모델
1
장에서 논의했듯이, 통합 효과는 인간의 입력을 받아들이고, 필요한 모든 처리를 수행하며, 단일
모델 내에서 인간이 소비할 수 있는 출력을 생성하는 엔드 투 엔드
end
-
to
-
end
아키텍처로 이어집니
다. 하지만 마지막 남은 부분은 토큰화 단계입니다. 앞서 본 코드에서 알 수 있듯이, 토큰화는 모델
에 입력할 데이터를 준비하는 전처리 단계로 사용됩니다. 모델이 받는 입력은 원시 텍스트가 아니
라 토큰 인덱스의 시퀀스입니다. 하지만 토큰화 단계를 제거해 모델을 진정으로 엔드 투 엔드로 만
들면 어떨까요? 원시 텍스트를 모델에 직접 입력하고 결과를 출력하게 할 수 있을까요?
CANINE
,
ByT5
,
Charformer
와 같은 모델이 토큰화 없는 언어 모델링 분야에 대해 시도를 했습니다.
●
CANINE
8
은 유니코드 코드 포인트를 입력으로 받습니다. 그러나 가능한 코드 포인트는
1
,
114
,
112
개
로, 어휘와 결과적인 임베딩 층
layer
크기가 현실적으로 불가능합니다. 이를 해결하고자
CANINE
은 해
시된 임베딩을 사용해 효과적인 어휘 공간을 훨씬 작게 만듭니다.
●
ByT5
9
는 바이트 단위로 입력을 받아들이므로 어휘에는 (몇 가지 특수 토큰을 포함하여 ) 단
259
개의
토큰만 있어 임베딩 층 크기를 크게 줄입니다.