Skip to Content
Aprendizaje automático práctico con Scikit-Learn y PyTorch.
book

Aprendizaje automático práctico con Scikit-Learn y PyTorch.

by Aurélien Géron
October 2025
Intermediate to advanced
878 pages
29h 3m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Aprendizaje automático práctico con Scikit-Learn y PyTorch.

Capítulo 16. Visión y transformadores multimodales

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, implementamos un transformador desde cero y lo convertimos en un sistema de traducción, luego exploramos modelos de sólo codificador para NLU, modelos de sólo decodificador para NLG, e incluso construimos un pequeño chatbot: ¡todo un viaje! Sin embargo, aún queda mucho por decir sobre los transformadores. En concreto, hasta ahora sólo nos hemos ocupado del texto, pero los transformadores han resultado ser excepcionalmente buenos procesando todo tipo de entradas. En este capítulo cubriremos los transformadores de visión (ViT), capaces de procesar imágenes, seguidos por los transformadores multimodales, capaces de manejar múltiples modalidades, incluyendo texto, imágenes, audio, vídeos, sensores y actuadores robóticos, y realmente cualquier tipo de datos.

En la primera parte de este capítulo, hablaremos de algunos de los transformadores de visión pura más influyentes:

DETR (Transformador de Detección)

Un primer transformador codificador-decodificador para la detección de objetos.

El ViT (Transformador de Visión) original

Este transformador de sólo codificador de puntos de referencia trata los parches de imagen como tokens de palabras y alcanza el estado del arte si se entrena con un gran conjunto de datos.

DeiT (Transformador de Imagen Eficiente en Datos)

Un ViT más eficiente en cuanto ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aprendizaje Automático Aplicado e IA para Ingenieros

Aprendizaje Automático Aplicado e IA para Ingenieros

Jeff Prosise

Publisher Resources

ISBN: 0642572270056Supplemental Content