Capítulo 17. Acelerar los transformadores
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los Capítulos 15 y 16, construimos todo tipo de transformadores, desde clasificadores, traductores y chatbots, hasta transformadores de visión y multimodales. Aunque los transformadores son increíblemente versátiles y potentes, distan mucho de ser perfectos. En concreto, pueden ser muy lentos, sobre todo cuando procesan secuencias de entrada largas.
Por suerte, se han desarrollado muchas técnicas para acelerar transformadores de cualquier tamaño:
-
Para acelerar la descodificación en los transformadores generativos, utilizaremos la caché clave/valor y la descodificación especulativa, y luego echaremos un vistazo rápido a varios enfoques para paralelizar la generación de texto.
-
Para acelerar la atención multicabezal (MHA), que es uno de los componentes más costosos computacionalmente de los transformadores, estudiaremos la atención dispersa, la atención aproximada, las proyecciones compartidas y FlashAttention.
-
Para acelerar transformadores gigantescos de hasta billones de parámetros, hablaremos de la mezcla de expertos (MoE).
-
Para entrenar eficientemente grandes transformadores, hablaremos del ajuste fino eficiente de parámetros (PEFT) utilizando adaptadores como la adaptación de bajo rango (LoRA), la comprobación de la activación, el empaquetamiento de secuencias, la acumulación de gradientes y el paralelismo. ...