Capítulo 16. Visión y transformadores multimodales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, implementamos un transformador desde cero y lo convertimos en un sistema de traducción, luego exploramos modelos de sólo codificador para NLU, modelos de sólo decodificador para NLG, e incluso construimos un pequeño chatbot: ¡todo un viaje! Sin embargo, aún queda mucho por decir sobre los transformadores. En concreto, hasta ahora sólo nos hemos ocupado del texto, pero los transformadores han resultado ser excepcionalmente buenos procesando todo tipo de entradas. En este capítulo cubriremos los transformadores de visión (ViT), capaces de procesar imágenes, seguidos por los transformadores multimodales, capaces de manejar múltiples modalidades, incluyendo texto, imágenes, audio, vídeos, sensores y actuadores robóticos, y realmente cualquier tipo de datos.
En la primera parte de este capítulo, hablaremos de algunos de los transformadores de visión pura más influyentes:
- DETR (Transformador de Detección)
-
Un primer transformador codificador-decodificador para la detección de objetos.
- El ViT (Transformador de Visión) original
-
Este transformador de sólo codificador de puntos de referencia trata los parches de imagen como tokens de palabras y alcanza el estado del arte si se entrena con un gran conjunto de datos.
- DeiT (Transformador de Imagen Eficiente en Datos)
-
Un ViT más eficiente en cuanto ...