
665
16
장
RNN과 어텐션을 사용한 자연어 처리
식
16-3
스케일드 점-곱 어텐션
AttentionsoftmaxQKV
QK
V,,
()
=
d
keys
이 식을 살펴봅시다.
•
Q
는 행마다 쿼리
query
하나를 담은 행렬입니다. 이 행렬의 크기는 [
n
queries
,
d
keys
]입니다. 여기에서
n
queries
는
쿼리 개수입니다.
d
keys
는 쿼리와 키의 차원 개수입니다.
•
K
는 행마다 키
key
하나를 담은 행렬입니다. 이 행렬의 크기는 [
n
keys
,
d
keys
]입니다. 여기에서
n
keys
는 키와 값
의 개수입니다.
•
V
는 행마다 값
value
하나를 담은 행렬입니다. 이 행렬의 크기는 [
n
keys
,
d
values
]입니다. 여기에서
d
values
는 값의
차원입니다.
•
QK
T
의 크기는 [
n
queries
,
n
keys
]입니다. 이 행렬은 쿼리/키 쌍마다 하나의 유사도 점수를 담고 있습니다. 소프
트맥스 함수의 출력도 동일한 크기이지만 모든 행은 합이
1
입니다. 최종 출력의 크기는 [
n
queries
,
d
values
]입니
다. 하나의 행은 하나의 쿼리에 해당합니다. 각 행은 쿼리 결과 (값의 가중치 합 )를 나타냅니다.
•
스케일링 인자는 소프트맥스 함수가 포화되어 그레이디언트가 너무 작아지지 않도록 유사도 점수를 낮춥
니다.
•
소프트맥스 함수를 계산하기 전에 ...