
538 Глава 16
зависимости мини-пакета. Таким образом, в отличие от пакетной нормализации, по-
слойная нормализация способна учиться на данных с мини-пакетами небольшого размера
и различной длины. Однако обратите внимание, что исходная архитектура Transformer
не имеет входных данных переменной длины (предложения дополняются при необхо-
димости), и, в отличие от RNN, в модели нет рекуррентности. Но почему тогда вместо
пакетной нормализации применяют послойную? Трансформеры обычно обучают на
очень больших текстовых корпусах, что требует параллельных вычислений, — их бы-
вает сложно выполнить при пакетной нормализации, которая имеет зависимо ...