Capítulo 10. Modelos de cimentación multimodal

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La IA generativa puede ser unimodal o multimodal. Los modelos unimodales trabajan exclusivamente con datos en una modalidad, como el texto. Los grandes modelos lingüísticos (LLM) son un ejemplo popular de IA generativa unimodal; tanto la modalidad de entrada como la de salida en la consulta y la finalización es el texto. En cuanto añades otra modalidad a la mezcla, como imagen, vídeo o audio, estás entrando en la IA generativa multimodal.

Con la IA generativa multimodal, puedes ampliar el alcance de los casos de uso y las tareas y acercarte potencialmente a la inteligencia general artificial (AGI) mejorando la comprensión contextual del modelo y el aprendizaje multimodal. La IA generativa multimodal es un paso hacia la simulación de la complejidad del mundo real que no sólo permite a los modelos procesar diversos formatos de datos, sino también aprender por transferencia y mejorar en la resolución creativa de problemas.

Con la IA multimodal, añades diferentes modalidades de contenido a la entrada para apoyar tareas como convertir, por ejemplo, imagen en texto o texto en imagen. La Figura 10-1 ilustra la diferencia entre la IA generativa unimodal y la multimodal.

Este capítulo comienza con una introducción a los casos de uso y tareas de la IA generativa multimodal, incluyendo la generación de imágenes y la respuesta ...

Get IA Generativa en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.