book

Modèles de langage à grande échelle pratiques

by Jay Alammar, Maarten Grootendorst

March 2025

Intermediate to advanced

428 pages

11h 44m

French

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Une philosophie fondée sur l'intuitionConditions préalablesStructure du livrePartie I : Comprendre les modèles linguistiquesPartie II : Utilisation de modèles linguistiques préformésPartie III : Formation et perfectionnement des modèles linguistiquesExigences en matière de matériel et de logicielClés APIConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
Qu'est-ce que l'IA linguistique ?Une histoire récente de l'IA des languesReprésenter le langage comme un sac de motsDe meilleures représentations grâce à l'intégration de vecteurs densesTypes d'encastrementsEncodage et décodage du contexte avec l'attentionL'attention est tout ce dont tu as besoinModèles de représentation : Modèles à encodeur seulModèles génératifs : Modèles à décodeur seulL'année de l'IA générativeLa définition mouvante d'un "grand modèle linguistique"Le paradigme de formation des grands modèles linguistiquesApplications des grands modèles de langage : Qu'est-ce qui les rend si utiles ?Développement et utilisation responsables du LLMDes ressources limitées sont tout ce dont tu as besoinInteraction avec les grands modèles linguistiquesModèles propriétaires et privésModèles ouvertsCadres de travail à source ouverteGénérer ton premier texteRésumé
Tokenisation LLMComment les tokenizers préparent les entrées du modèle linguistiqueTéléchargement et exécution d'un LLMComment le tokenizer décompose-t-il le texte ?Mot Versus Sous-mot Versus Caractère Versus Octet JetonsComparaison de tokenizers LLM entraînésPropriétés du tokenizerIntégrations de jetonsUn modèle de langue contient des emboîtements pour le vocabulaire de son tokenizateur.Création d'encodages de mots contextualisés à l'aide de modèles de langageEncastrements dans le texte (pour les phrases et les documents entiers)Les encodages de mots au-delà des LLMsUtilisation de Word Embeddings préformésL'algorithme Word2vec et l'entraînement contrastifEmbeddings pour les systèmes de recommandationRecommander des chansons à l'aide d'emboîtementsEntraînement d'un modèle d'intégration de chansonsRésumé
Aperçu des modèles de transformateursLes entrées et les sorties d'un LLM formé à la transformation.Les composantes de la passe avantChoisir un seul jeton dans la distribution de probabilité (échantillonnage/décodage)Traitement parallèle des jetons et taille du contexteAccélérer la génération en mettant en cache les clés et les valeursA l'intérieur du bloc transformateurAméliorations récentes de l'architecture des transformateursUne attention plus efficaceLe bloc transformateurEmboîtements positionnels (RoPE)Autres expériences et améliorations architecturalesRésumé
Le sentiment des critiques de filmsClassification des textes à l'aide de modèles de représentationChoix du modèleUtiliser un modèle spécifique à la tâcheTâches de classification qui s'appuient sur les emboîtementsClassification superviséeQue se passe-t-il si nous n'avons pas de données étiquetées ?Classification de textes avec des modèles génératifsUtilisation du transformateur de transfert texte à texteChatGPT pour la classificationRésumé
Articles d'ArXiv : Calcul et langageUn pipeline commun pour le regroupement de textesIntégrer des documentsRéduire la dimensionnalité des emboîtementsRegrouper les Embeddings réduitsInspecter les grappesDu regroupement de textes à la modélisation des sujetsBERTopic : Un cadre modulaire de modélisation des sujetsAjouter un bloc Lego spécialLe bloc de Lego de la génération de textesRésumé
Utilisation de modèles de génération de texteChoisir un modèle de génération de texteChargement d'un modèle de génération de texteContrôler la sortie du modèleIntroduction à l'ingénierie des promptsLes ingrédients de base d'un promptLes prompts basés sur l'enseignementIngénierie avancée des promptsLa complexité potentielle d'un promptApprentissage en contexte : Fournir des exemplesLes prompteurs en chaîne : Décomposer le problèmeRaisonner avec des modèles génératifsChaîne de pensée : Réfléchis avant de répondreAutoconsistance : Échantillonnage des sortiesL'arbre de la pensée : Explorer les étapes intermédiairesVérification de la sortieFournir des exemplesGrammaire : Échantillonnage contraintRésumé
E/S de modèle : Chargement de modèles quantifiés avec LangChainChaînes : Étendre les capacités des LLMsUn seul maillon de la chaîne : Modèle de promptUne chaîne avec plusieurs promptsMémoire : Aider les LLMs à se souvenir des conversationsBuffer de conversationTampon de conversation fenêtréRésumé de la conversationAgents : Créer un système de LLMsLa force motrice derrière les agents : Raisonnement étape par étapeReact dans LangChainRésumé

Aperçu de la recherche sémantique et du RAGRecherche sémantique avec des modèles linguistiquesRécupération denseRerankingMesures d'évaluation de l'extractionGénération améliorée par récupération (RAG)De la recherche au RAGExemple : Génération ancrée avec une API LLMExemple : RAG avec des modèles locauxTechniques avancées de RAGÉvaluation RAGRésumé
Transformateurs pour la visionModèles d'intégration multimodaleCLIP : Relier le texte et les imagesComment CLIP peut-il générer des emboîtements multimodaux ?OpenCLIPRendre les modèles de génération de texte multimodauxBLIP-2 : Combler l'écart entre les modalitésPrétraitement des données multimodalesCas d'utilisation 1 : sous-titrage d'imagesCas d'utilisation 2 : prompt multimodal basé sur le chat.Résumé
Intégrer des modèlesQu'est-ce que l'apprentissage contrastif ?SBERTCréer un modèle d'intégrationGénérer des exemples contrastifsModèle de trainÉvaluation approfondieFonctions de perteMise au point d'un modèle d'intégrationSuperviséSBERT augmentéApprentissage non superviséAuto-encodeur de débruitage séquentiel basé sur des transformateursUtiliser TSDAE pour l'adaptation du domaineRésumé
Classification superviséeMise au point d'un modèle BERT pré-entraînéCongélation des couchesClassification des petits coupsSetFit : Un réglage fin efficace avec peu d'exemples d'entraînementAjustement pour la classification de quelques tirsPré-entraînement continu avec la modélisation du langage masquéReconnaissance des entités nomméesPréparation des données pour la reconnaissance des entités nomméesRéglage fin pour la reconnaissance des entités nomméesRésumé
Les trois étapes de la formation LLM : Pré-entraînement, mise au point supervisée et mise au point des préférencesRéglage fin supervisé (SFT)Ajustement completRéglage fin efficace des paramètres (PEFT)Ajustement des instructions avec QLoRAModélisation des données d'instructionQuantification du modèleConfiguration de LoRAConfiguration de la formationFormationFusionner les poidsÉvaluer les modèles génératifsMesures au niveau des motsRepèresClassementsÉvaluation automatiséeÉvaluation humainePréférence - Accord / Alignement / RLHFAutomatiser l'évaluation des préférences à l'aide de modèles de récompenseLes intrants et les extrants d'un modèle de récompenseFormer un modèle de récompenseModèle de formation sans récompenseRéglage des préférences avec DPOModélisation des données d'alignementQuantification du modèleConfiguration de la formationFormationRésumé

Content preview from Modèles de langage à grande échelle pratiques

Chapitre 3. Regarder à l'intérieur des grands modèles linguistiques

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Maintenant que nous avons une idée de la tokenisation et des embeddings, nous sommes prêts à nous plonger plus profondément dans le modèle de langage et à voir comment il fonctionne. Dans ce chapitre, nous allons examiner certaines des principales intuitions sur le fonctionnement des modèles de langage de Transformer. Nous nous concentrerons sur les modèles de génération de texte afin d'approfondir notre connaissance des LLMs génératifs en particulier.

Nous allons examiner à la fois les concepts et quelques exemples de code qui les démontrent. Commençons par charger un modèle de langage et le préparer à la génération en déclarant un pipeline. Lors de ta première lecture, n'hésite pas à sauter le code et à te concentrer sur la compréhension des concepts impliqués. Puis, dans une deuxième lecture, le code te permettra de commencer à appliquer ces concepts.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")

model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Phi-3-mini-4k-instruct",
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)

# Create a pipeline
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer ...