book

Modèles de langage à grande échelle pratiques

by Jay Alammar, Maarten Grootendorst

March 2025

Intermediate to advanced

428 pages

11h 44m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Une philosophie fondée sur l'intuitionConditions préalablesStructure du livrePartie I : Comprendre les modèles linguistiquesPartie II : Utilisation de modèles linguistiques préformésPartie III : Formation et perfectionnement des modèles linguistiquesExigences en matière de matériel et de logicielClés APIConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
Qu'est-ce que l'IA linguistique ?Une histoire récente de l'IA des languesReprésenter le langage comme un sac de motsDe meilleures représentations grâce à l'intégration de vecteurs densesTypes d'encastrementsEncodage et décodage du contexte avec l'attentionL'attention est tout ce dont tu as besoinModèles de représentation : Modèles à encodeur seulModèles génératifs : Modèles à décodeur seulL'année de l'IA générativeLa définition mouvante d'un "grand modèle linguistique"Le paradigme de formation des grands modèles linguistiquesApplications des grands modèles de langage : Qu'est-ce qui les rend si utiles ?Développement et utilisation responsables du LLMDes ressources limitées sont tout ce dont tu as besoinInteraction avec les grands modèles linguistiquesModèles propriétaires et privésModèles ouvertsCadres de travail à source ouverteGénérer ton premier texteRésumé
Tokenisation LLMComment les tokenizers préparent les entrées du modèle linguistiqueTéléchargement et exécution d'un LLMComment le tokenizer décompose-t-il le texte ?Mot Versus Sous-mot Versus Caractère Versus Octet JetonsComparaison de tokenizers LLM entraînésPropriétés du tokenizerIntégrations de jetonsUn modèle de langue contient des emboîtements pour le vocabulaire de son tokenizateur.Création d'encodages de mots contextualisés à l'aide de modèles de langageEncastrements dans le texte (pour les phrases et les documents entiers)Les encodages de mots au-delà des LLMsUtilisation de Word Embeddings préformésL'algorithme Word2vec et l'entraînement contrastifEmbeddings pour les systèmes de recommandationRecommander des chansons à l'aide d'emboîtementsEntraînement d'un modèle d'intégration de chansonsRésumé
Aperçu des modèles de transformateursLes entrées et les sorties d'un LLM formé à la transformation.Les composantes de la passe avantChoisir un seul jeton dans la distribution de probabilité (échantillonnage/décodage)Traitement parallèle des jetons et taille du contexteAccélérer la génération en mettant en cache les clés et les valeursA l'intérieur du bloc transformateurAméliorations récentes de l'architecture des transformateursUne attention plus efficaceLe bloc transformateurEmboîtements positionnels (RoPE)Autres expériences et améliorations architecturalesRésumé
Le sentiment des critiques de filmsClassification des textes à l'aide de modèles de représentationChoix du modèleUtiliser un modèle spécifique à la tâcheTâches de classification qui s'appuient sur les emboîtementsClassification superviséeQue se passe-t-il si nous n'avons pas de données étiquetées ?Classification de textes avec des modèles génératifsUtilisation du transformateur de transfert texte à texteChatGPT pour la classificationRésumé
Articles d'ArXiv : Calcul et langageUn pipeline commun pour le regroupement de textesIntégrer des documentsRéduire la dimensionnalité des emboîtementsRegrouper les Embeddings réduitsInspecter les grappesDu regroupement de textes à la modélisation des sujetsBERTopic : Un cadre modulaire de modélisation des sujetsAjouter un bloc Lego spécialLe bloc de Lego de la génération de textesRésumé
Utilisation de modèles de génération de texteChoisir un modèle de génération de texteChargement d'un modèle de génération de texteContrôler la sortie du modèleIntroduction à l'ingénierie des promptsLes ingrédients de base d'un promptLes prompts basés sur l'enseignementIngénierie avancée des promptsLa complexité potentielle d'un promptApprentissage en contexte : Fournir des exemplesLes prompteurs en chaîne : Décomposer le problèmeRaisonner avec des modèles génératifsChaîne de pensée : Réfléchis avant de répondreAutoconsistance : Échantillonnage des sortiesL'arbre de la pensée : Explorer les étapes intermédiairesVérification de la sortieFournir des exemplesGrammaire : Échantillonnage contraintRésumé
E/S de modèle : Chargement de modèles quantifiés avec LangChainChaînes : Étendre les capacités des LLMsUn seul maillon de la chaîne : Modèle de promptUne chaîne avec plusieurs promptsMémoire : Aider les LLMs à se souvenir des conversationsBuffer de conversationTampon de conversation fenêtréRésumé de la conversationAgents : Créer un système de LLMsLa force motrice derrière les agents : Raisonnement étape par étapeReact dans LangChainRésumé

Aperçu de la recherche sémantique et du RAGRecherche sémantique avec des modèles linguistiquesRécupération denseRerankingMesures d'évaluation de l'extractionGénération améliorée par récupération (RAG)De la recherche au RAGExemple : Génération ancrée avec une API LLMExemple : RAG avec des modèles locauxTechniques avancées de RAGÉvaluation RAGRésumé
Transformateurs pour la visionModèles d'intégration multimodaleCLIP : Relier le texte et les imagesComment CLIP peut-il générer des emboîtements multimodaux ?OpenCLIPRendre les modèles de génération de texte multimodauxBLIP-2 : Combler l'écart entre les modalitésPrétraitement des données multimodalesCas d'utilisation 1 : sous-titrage d'imagesCas d'utilisation 2 : prompt multimodal basé sur le chat.Résumé
Intégrer des modèlesQu'est-ce que l'apprentissage contrastif ?SBERTCréer un modèle d'intégrationGénérer des exemples contrastifsModèle de trainÉvaluation approfondieFonctions de perteMise au point d'un modèle d'intégrationSuperviséSBERT augmentéApprentissage non superviséAuto-encodeur de débruitage séquentiel basé sur des transformateursUtiliser TSDAE pour l'adaptation du domaineRésumé
Classification superviséeMise au point d'un modèle BERT pré-entraînéCongélation des couchesClassification des petits coupsSetFit : Un réglage fin efficace avec peu d'exemples d'entraînementAjustement pour la classification de quelques tirsPré-entraînement continu avec la modélisation du langage masquéReconnaissance des entités nomméesPréparation des données pour la reconnaissance des entités nomméesRéglage fin pour la reconnaissance des entités nomméesRésumé
Les trois étapes de la formation LLM : Pré-entraînement, mise au point supervisée et mise au point des préférencesRéglage fin supervisé (SFT)Ajustement completRéglage fin efficace des paramètres (PEFT)Ajustement des instructions avec QLoRAModélisation des données d'instructionQuantification du modèleConfiguration de LoRAConfiguration de la formationFormationFusionner les poidsÉvaluer les modèles génératifsMesures au niveau des motsRepèresClassementsÉvaluation automatiséeÉvaluation humainePréférence - Accord / Alignement / RLHFAutomatiser l'évaluation des préférences à l'aide de modèles de récompenseLes intrants et les extrants d'un modèle de récompenseFormer un modèle de récompenseModèle de formation sans récompenseRéglage des préférences avec DPOModélisation des données d'alignementQuantification du modèleConfiguration de la formationFormationRésumé

Content preview from Modèles de langage à grande échelle pratiques

Chapitre 11. Affiner les modèles de représentation pour la classification

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Au chapitre 4, nous avons utilisé des modèles pré-entraînés pour classer notre texte. Nous avons conservé les modèles pré-entraînés tels quels, sans les modifier. Tu peux donc te demander ce qui se passerait si nous les affinions.

Si nous disposons de suffisamment de données, le réglage fin tend à conduire à certains des modèles les plus performants possibles. Dans ce chapitre, nous allons passer en revue plusieurs méthodes et applications permettant d'affiner les modèles d'ERTG. Le chapitre "Classification supervisée" présente le processus général de mise au point d'un modèle de classification. Ensuite, dans "Few-Shot Classification", nous examinons SetFit, qui est une méthode permettant d'affiner efficacement un modèle très performant en utilisant un petit nombre d'exemples de formation. Dans "Pré-entraînement continu avec la modélisation du langage masqué", nous étudierons comment poursuivre l'entraînement d'un modèle pré-entraîné. Enfin, la classification au niveau des jetons est étudiée dans "Reconnaissance des entités nommées".

Nous nous concentrerons sur les tâches non génératives, car les modèles génératifs seront abordés au chapitre 12.

Classification supervisée

Au chapitre 4, nous avons exploré les tâches de classification supervisée en tirant parti de modèles de représentation ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Programmation de PyTorch pour l'apprentissage profond

Ian Pointer

L'IA générative pratique avec les transformateurs et les modèles de diffusion

Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

Traitement du langage naturel avec les transformateurs, édition révisée

Lewis Tunstall, Leandro von Werra, Thomas Wolf

Systèmes de production à apprentissage automatique

Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu

Publisher Resources

ISBN: 9798341630680Supplemental Content