Capítulo 10. Modelos de cimentación multimodal
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La IA generativa puede ser unimodal o multimodal. Los modelos unimodales trabajan exclusivamente con datos en una modalidad, como el texto. Los grandes modelos lingüísticos (LLM) son un ejemplo popular de IA generativa unimodal; tanto la modalidad de entrada como la de salida en la consulta y la finalización es el texto. En cuanto añades otra modalidad a la mezcla, como imagen, vídeo o audio, estás entrando en la IA generativa multimodal.
Con la IA generativa multimodal, puedes ampliar el alcance de los casos de uso y las tareas y acercarte potencialmente a la inteligencia general artificial (AGI) mejorando la comprensión contextual del modelo y el aprendizaje multimodal. La IA generativa multimodal es un paso hacia la simulación de la complejidad del mundo real que no sólo permite a los modelos procesar diversos formatos de datos, sino también aprender por transferencia y mejorar en la resolución creativa de problemas.
Con la IA multimodal, añades diferentes modalidades de contenido a la entrada para apoyar tareas como convertir, por ejemplo, imagen en texto o texto en imagen. La Figura 10-1 ilustra la diferencia entre la IA generativa unimodal y la multimodal.
Este capítulo comienza con una introducción a los casos de uso y tareas de la IA generativa multimodal, incluyendo la generación de imágenes y la respuesta ...