book

Modèles de langage à grande échelle pratiques

Name: Modèles de langage à grande échelle pratiques
ISBN: 9798341630680

by Jay Alammar, Maarten Grootendorst

March 2025

Intermediate to advanced

428 pages

11h 44m

French

O'Reilly Media, Inc.

Audio summary available

Read now

Unlock full access

Préface
Une philosophie fondée sur l'intuitionConditions préalablesStructure du livrePartie I : Comprendre les modèles linguistiquesPartie II : Utilisation de modèles linguistiques préformésPartie III : Formation et perfectionnement des modèles linguistiquesExigences en matière de matériel et de logicielClés APIConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
I. Comprendre les modèles linguistiques
1. Introduction aux grands modèles linguistiques
Qu'est-ce que l'IA linguistique ?Une histoire récente de l'IA des languesReprésenter le langage comme un sac de motsDe meilleures représentations grâce à l'intégration de vecteurs densesTypes d'encastrementsEncodage et décodage du contexte avec l'attentionL'attention est tout ce dont tu as besoinModèles de représentation : Modèles à encodeur seulModèles génératifs : Modèles à décodeur seulL'année de l'IA générativeLa définition mouvante d'un "grand modèle linguistique"Le paradigme de formation des grands modèles linguistiquesApplications des grands modèles de langage : Qu'est-ce qui les rend si utiles ?Développement et utilisation responsables du LLMDes ressources limitées sont tout ce dont tu as besoinInteraction avec les grands modèles linguistiquesModèles propriétaires et privésModèles ouvertsCadres de travail à source ouverteGénérer ton premier texteRésumé
2. Les jetons et les emboîtements
Tokenisation LLMComment les tokenizers préparent les entrées du modèle linguistiqueTéléchargement et exécution d'un LLMComment le tokenizer décompose-t-il le texte ?Mot Versus Sous-mot Versus Caractère Versus Octet JetonsComparaison de tokenizers LLM entraînésPropriétés du tokenizerIntégrations de jetonsUn modèle de langue contient des emboîtements pour le vocabulaire de son tokenizateur.Création d'encodages de mots contextualisés à l'aide de modèles de langageEncastrements dans le texte (pour les phrases et les documents entiers)Les encodages de mots au-delà des LLMsUtilisation de Word Embeddings préformésL'algorithme Word2vec et l'entraînement contrastifEmbeddings pour les systèmes de recommandationRecommander des chansons à l'aide d'emboîtementsEntraînement d'un modèle d'intégration de chansonsRésumé
3. Regarder à l'intérieur des grands modèles linguistiques
Aperçu des modèles de transformateursLes entrées et les sorties d'un LLM formé à la transformation.Les composantes de la passe avantChoisir un seul jeton dans la distribution de probabilité (échantillonnage/décodage)Traitement parallèle des jetons et taille du contexteAccélérer la génération en mettant en cache les clés et les valeursA l'intérieur du bloc transformateurAméliorations récentes de l'architecture des transformateursUne attention plus efficaceLe bloc transformateurEmboîtements positionnels (RoPE)Autres expériences et améliorations architecturalesRésumé
II. Utilisation de modèles linguistiques préformés
4. Classification des textes
Le sentiment des critiques de filmsClassification des textes à l'aide de modèles de représentationChoix du modèleUtiliser un modèle spécifique à la tâcheTâches de classification qui s'appuient sur les emboîtementsClassification superviséeQue se passe-t-il si nous n'avons pas de données étiquetées ?Classification de textes avec des modèles génératifsUtilisation du transformateur de transfert texte à texteChatGPT pour la classificationRésumé
5. Regroupement de textes et modélisation thématique
Articles d'ArXiv : Calcul et langageUn pipeline commun pour le regroupement de textesIntégrer des documentsRéduire la dimensionnalité des emboîtementsRegrouper les Embeddings réduitsInspecter les grappesDu regroupement de textes à la modélisation des sujetsBERTopic : Un cadre modulaire de modélisation des sujetsAjouter un bloc Lego spécialLe bloc de Lego de la génération de textesRésumé
6. Ingénierie prompte
Utilisation de modèles de génération de texteChoisir un modèle de génération de texteChargement d'un modèle de génération de texteContrôler la sortie du modèleIntroduction à l'ingénierie des promptsLes ingrédients de base d'un promptLes prompts basés sur l'enseignementIngénierie avancée des promptsLa complexité potentielle d'un promptApprentissage en contexte : Fournir des exemplesLes prompteurs en chaîne : Décomposer le problèmeRaisonner avec des modèles génératifsChaîne de pensée : Réfléchis avant de répondreAutoconsistance : Échantillonnage des sortiesL'arbre de la pensée : Explorer les étapes intermédiairesVérification de la sortieFournir des exemplesGrammaire : Échantillonnage contraintRésumé
7. Techniques et outils avancés de génération de texte
E/S de modèle : Chargement de modèles quantifiés avec LangChainChaînes : Étendre les capacités des LLMsUn seul maillon de la chaîne : Modèle de promptUne chaîne avec plusieurs promptsMémoire : Aider les LLMs à se souvenir des conversationsBuffer de conversationTampon de conversation fenêtréRésumé de la conversationAgents : Créer un système de LLMsLa force motrice derrière les agents : Raisonnement étape par étapeReact dans LangChainRésumé

8. Recherche sémantique et récupération - Génération augmentée
Aperçu de la recherche sémantique et du RAGRecherche sémantique avec des modèles linguistiquesRécupération denseRerankingMesures d'évaluation de l'extractionGénération améliorée par récupération (RAG)De la recherche au RAGExemple : Génération ancrée avec une API LLMExemple : RAG avec des modèles locauxTechniques avancées de RAGÉvaluation RAGRésumé
9. Modèles linguistiques multimodaux à grande échelle
Transformateurs pour la visionModèles d'intégration multimodaleCLIP : Relier le texte et les imagesComment CLIP peut-il générer des emboîtements multimodaux ?OpenCLIPRendre les modèles de génération de texte multimodauxBLIP-2 : Combler l'écart entre les modalitésPrétraitement des données multimodalesCas d'utilisation 1 : sous-titrage d'imagesCas d'utilisation 2 : prompt multimodal basé sur le chat.Résumé
III. Formation et perfectionnement des modèles linguistiques
10. Création de modèles d'intégration de texte
Intégrer des modèlesQu'est-ce que l'apprentissage contrastif ?SBERTCréer un modèle d'intégrationGénérer des exemples contrastifsModèle de trainÉvaluation approfondieFonctions de perteMise au point d'un modèle d'intégrationSuperviséSBERT augmentéApprentissage non superviséAuto-encodeur de débruitage séquentiel basé sur des transformateursUtiliser TSDAE pour l'adaptation du domaineRésumé
11. Affiner les modèles de représentation pour la classification
Classification superviséeMise au point d'un modèle BERT pré-entraînéCongélation des couchesClassification des petits coupsSetFit : Un réglage fin efficace avec peu d'exemples d'entraînementAjustement pour la classification de quelques tirsPré-entraînement continu avec la modélisation du langage masquéReconnaissance des entités nomméesPréparation des données pour la reconnaissance des entités nomméesRéglage fin pour la reconnaissance des entités nomméesRésumé
12. Mise au point des modèles de génération
Les trois étapes de la formation LLM : Pré-entraînement, mise au point supervisée et mise au point des préférencesRéglage fin supervisé (SFT)Ajustement completRéglage fin efficace des paramètres (PEFT)Ajustement des instructions avec QLoRAModélisation des données d'instructionQuantification du modèleConfiguration de LoRAConfiguration de la formationFormationFusionner les poidsÉvaluer les modèles génératifsMesures au niveau des motsRepèresClassementsÉvaluation automatiséeÉvaluation humainePréférence - Accord / Alignement / RLHFAutomatiser l'évaluation des préférences à l'aide de modèles de récompenseLes intrants et les extrants d'un modèle de récompenseFormer un modèle de récompenseModèle de formation sans récompenseRéglage des préférences avec DPOModélisation des données d'alignementQuantification du modèleConfiguration de la formationFormationRésumé
Postface
Index
À propos des auteurs

Content preview from Modèles de langage à grande échelle pratiques

Chapitre 1. Introduction aux grands modèles linguistiques

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

L'humanité se trouve à un point d'inflexion. À partir de Network+ 2012, les développements dans la construction de systèmes d'IA (utilisant des réseaux neuronaux profonds) se sont accélérés de sorte qu'à la fin de la décennie, ils ont donné le premier système logiciel capable de rédiger des articles indiscernables de ceux écrits par des humains. Ce système était un modèle d'IA appelé Generative Pre-trained Transformer 2, ou GPT-2. L'année 2022 a marqué la sortie de ChatGPT, qui a démontré à quel point cette technologie était prête à révolutionner la façon dont nous interagissons avec la technologie et l'information. Atteignant un million d'utilisateurs actifs en cinq jours, puis cent millions d'utilisateurs actifs en deux mois, la nouvelle race de modèles d'IA a commencé par des chatbots de type humain, mais s'est rapidement transformée en un changement monumental dans notre approche des tâches courantes, comme la traduction, la génération de texte, le résumé, et bien plus encore. Il est devenu un outil inestimable pour les programmeurs, les éducateurs et les chercheurs.

Le succès de ChatGPT était sans précédent et a popularisé davantage de recherches sur la technologie qui le sous-tendait, à savoir les grands modèles de langage (LLMs). Des modèles propriétaires et publics ont été publiés à ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341630680

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Modèles de langage à grande échelle pratiques

by Jay Alammar, Maarten Grootendorst

Chapitre 1. Introduction aux grands modèles linguistiques

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.