
Трансформеры: улучшение обработки естественного языка с помощью механизмов внимания
553
аналогичным токену [CLS] в BERT. Кроме того, в этом случае как в кодировщик, так и
в декодер подают неискаженный входной текст, чтобы модель могла использовать его
полностью.
В задаче классификации токенов дополнительные токены становятся ненужными,
и модель может напрямую использовать сгенерированное представление для каждого
токена.
Генерация последовательности в BART немного отличается от GPT из-за наличия
кодировщика. В отличие от генерации текста с нуля, задачи генерации последователь-
ности с помощью BART более сравнимы с резюмиро ...