
Трансформеры: улучшение обработки естественного языка с помощью механизмов внимания
533
Разделение данных между несколькими головами внимания
На практике вместо того, чтобы иметь отдельную матрицу для каждой головы вн и-
мания, различные реализации трансформера используют единую матрицу для всех
голов внимания. Затем головы внимания организуются в логически обособленные
области в такой матрице, доступ к которым можно получить с помощью булевых
масок. Это позволяет более эффективно реализовывать многоголовое внимание,
потому что вместо нескольких матричных умножений можно реализовать одно
матричное умножение. Однако для простоты ...