Chapitre 10. Modèles de fondations multimodales
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
L'IA générative peut être unimodale ou multimodale. Les modèles unimodaux travaillent exclusivement avec des données d'une seule modalité, comme le texte. Les grands modèles de langage (LLMs) sont un exemple populaire d'IA générative unimodale ; la modalité d'entrée et de sortie dans l'invite et la complétion est le texte. Lorsque tu ajoutes une autre modalité au mélange, telle que l'image, la vidéo ou l'audio, tu entres dans l'IA générative multimodale.
Avec l'IA générative multimodale, tu peux élargir le champ des cas d'utilisation et des tâches et potentiellement te rapprocher de l'intelligence générale artificielle (AGI) en améliorant la compréhension contextuelle du modèle et l'apprentissage multimodal. L'IA générative multimodale est une étape vers la simulation de la complexité du monde réel qui permet non seulement aux modèles de traiter divers formats de données, mais aussi d'apprendre par transfert et de devenir meilleurs dans la résolution créative de problèmes.
Avec l'IA multimodale, tu ajoutes différentes modalités de contenu à l'entrée pour prendre en charge des tâches telles que la conversion, par exemple, d'une image en texte ou d'un texte en image. La figure 10-1 illustre la différence entre l'IA générative unimodale et multimodale.
Ce chapitre commence par une introduction aux cas ...