
133
4
장
아키텍처와 학습 목표
...Her father was growing nervous , and could not understand her....
...
연습 문제 ●●●
‘
nervous
’라는 단어를 한 번도 들어 본 적이 없다고 상상해 보세요. 이 단어가 사용된 다양한 맥
락만 살펴보고도 의미를 추측할 수 있을까요?
‘
nervous
’의 동의어들이 사용되는 맥락도 확인해 보세요. ‘
nervous
’가 사용되는 맥락과 얼마나
유사한가요?
4.3
트랜스포머 아키텍처
이제 텍스트가 어떻게 벡터 형태로 표현되는지에 대한 직관을 얻었으니, 오늘날 언어 모델 훈
련에 사용되는 대표적인 아키텍처인 트랜스포머를 더 깊이 살펴보겠습니다.
2010
년대 중반까지 자연어 처리 작업에 주로 사용되던 아키텍처는 순환 신경망이었으며, 특
히 장단기 메모리를 활용한
LSTM
이라는 변형이 널리 사용되었습니다. 이 책에서는 순환 신경
망에 관한 지식이 필수는 아니지만, 더 자세한 내용은 『자연어 처리를 위한 신경망 방법론
Neural
Network
Methods
for
Natural
Language
Processing
』
3
을 참고하길 권합니다.
순환 신경망은 시퀀스 모델로, 텍스트를 한 번에 하나의 토큰씩 순차적으로 처리했습니다. 전
체 시퀀스의 상태를 단일 벡터로 표현했으므로 시퀀스가