Chapitre 9. Modèles linguistiques multimodaux à grande échelle
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Lorsque tu penses aux grands modèles de langage (LLM), la multimodalité n'est peut-être pas la première chose qui te vient à l'esprit. Après tout, il s'agit de modèles de langage! Mais nous pouvons rapidement constater que les modèles peuvent être beaucoup plus utiles s'ils sont capables de traiter des types de données autres que le texte. Il est très utile, par exemple, qu'un modèle de langage soit capable de jeter un coup d'œil sur une image et de répondre à des questions à son sujet. Un modèle capable de traiter du texte et des images (chacun étant appelé une modalité) est dit multimodal, comme nous pouvons le voir dans la figure 9-1.
Figure 9-1. Les modèles capables de traiter différents types (ou modalités) de données, telles que des images, des sons, des vidéos ou des capteurs, sont dits multimodaux. Il est possible qu'un modèle accepte une modalité comme entrée sans pour autant être capable de générer des données dans cette modalité.
Nous avons vu toutes sortes de comportements émergents surgir des LLMs, depuis les capacités de généralisation et le raisonnement jusqu'à l'arithmétique et la linguistique. Au fur et à mesure que les modèles deviennent plus grands et plus intelligents, ...