L'IA générative pratique avec les transformateurs et les modèles de diffusion
by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker
Chapitre 2. Les transformateurs
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
De nombreux font remonter la plus récente vague d'avancées en matière d'IA générative à l'introduction d'une classe de modèles appelés transformateurs en 2017. Leurs applications les plus connues sont les puissants modèles de langage de grande taille (LLMs), tels que Llama et GPT-4, utilisés par des centaines de millions de personnes chaque jour. Les transformateurs sont devenus l'épine dorsale des applications modernes de l'IA, alimentant tout, des chatbots et des systèmes de recherche à la traduction automatique et au résumé de contenu. Ils ont même dépassé le cadre du texte, faisant des vagues dans des domaines tels que la vision par ordinateur, la génération de musique et le repliement des protéines. Dans ce chapitre, nous allons explorer les idées fondamentales qui sous-tendent les transformateurs et leur fonctionnement, en nous concentrant sur l'une des applications les plus courantes : la modélisation du langage.
Avant de nous plonger dans les détails des transformateurs, prenons un peu de recul et comprenons ce qu'est la modélisation linguistique. À la base, un modèle de langage (LM) est un modèle probabiliste qui apprend à prédire le prochain mot (ou jeton) d'une séquence en fonction des mots qui le précèdent ou l'entourent. Ce faisant, il capture la structure et les modèles sous-jacents de la langue, ce qui ...