
Трансформеры: улучшение обработки естественного языка с помощью механизмов внимания
523
Если конкретизировать сказанное, то вес внимания вычисляется путем нормализации
оценок выравнивания:
.
Обратите внимание, что это уравнение похоже на функцию
softmax
, которую мы обсуж-
дали в разд. 12.5.2. Следовательно, веса внимания !
i1
... !
iT
в сумме дают 1.
Теперь, подводя итог, мы можем разделить модель RNN, основанную на внимании, на
три части: первая часть вычисляет двунаправленные аннотации ввода, вторая — состо-
ит из рекуррентного блока, который очень похож на базовую модель RNN, за исключе-
нием того, что он использует векторы контекста ...