
660
2
부
신경망과 딥러닝
16.4.2
트랜스포머 구조: 어텐션이 필요한 전부다
2017
년 획기적인 한 논문
29
에서 구글 연구팀은 ‘어텐션이 필요한 전부다
Attention
is
all
you
need
’라고
제안했습니다. 연구자들은 트랜스포머
Transformer
라는 구조를 만들었습니다. 이 구조는 순환 층이
나 합성곱 층을 전혀 사용하지 않고
30
어텐션 메커니즘만(그리고 임베딩 층, 밀집 층, 정규화
층, 몇 가지 다른 구성 요소를 더해 ) 사용해
NMT
문제에서 최고 수준 성능을 크게 향상했습니
다. 추가적인 장점은 이 구조를 훨씬 빠르게 훈련할 수 있고 병렬화하기 쉽다는 것입니다. 따라
서 이전의 모델에서 최고 성능을 내기 위해 필요한 시간과 비용 일부만으로 훈련할 수 있습니
다. [그림
16
-
8
]에 트랜스포머 구조가 나타나 있습니다.
입력
출력
(오른쪽으로 이동)
위치 인코딩 위치 인코딩
멀티-헤드
어텐션
멀티-헤드
어텐션
마스크드
멀티-헤드
어텐션
입력 임베딩
출력 임베딩
덧셈 & 정규화
덧셈 & 정규화
덧셈 & 정규화
덧셈 & 정규화
선형
소프트맥스
출력 확률
덧셈 & 정규화
피드포워드
피드포워드
그림
16-8
트랜스포머 구조
31
29
Ashish
Vaswani
et
al
., “
Attention
Is
All
You
Need
,”
Proceedings
of
the
31st
International ...