book

L'IA générative pratique avec les transformateurs et les modèles de diffusion

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

March 2025

Intermediate to advanced

418 pages

12h 29m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Qui devrait lire ce livre ?Conditions préalablesCe que tu apprendrasComment lire ce livreExigences en matière de logiciels et de matérielConventions utilisées dans ce livreUtilisation d'exemples de codeComment nous contacterL'état de l'art : Une cible mouvanteRemerciementsJonathanApolinárioPedroOmar
Générer des imagesGénérer du texteGénérer des clips sonoresImplications éthiques et sociétalesOù nous en sommes et où en sommes-nous ?Comment sont créés les modèles d'IA générative ?Résumé
Un modèle linguistique en actionTokenisation du textePrévoir les probabilitésGénérer du texteGénéralisation du tir à zéroGénéralisation de quelques tirsUn bloc transformateurModèle de transformateur GénéalogieTâches de séquence à séquenceModèles à encodeur seulLe pouvoir de la préformationRécapitulation de TransformersLimitesAu-delà du texteTemps de projet : Utilisation des LM pour générer du texteRésuméExercicesLes défisRéférences
AutoEncodersPréparation des donnéesModélisation de l'encodeurDécodeurFormationExplorer l'espace latentVisualiser l'espace latentAutoencodeurs variationnelsEncodeurs et décodeurs VAEÉchantillonnage de la distribution de l'encodeurFormer la VAEVAE pour la modélisation générativeCLIPPerte contrastiveUtiliser CLIP, étape par étapeClassification d'images sans prise de vue avec CLIPPipeline de classification d'images à partir de zéroCas d'utilisation de CLIPAlternatives à CLIPDurée du projet : Recherche sémantique d'imagesRésuméExercicesLes défisRéférences
L'idée clé : le raffinement itératifFormation d'un modèle de diffusionLes donnéesAjouter du bruitL'UNetFormationÉchantillonnageL'évaluationEn profondeur : Horaires de bruitPourquoi ajouter du bruit ?Commencer simpleLes mathématiquesEffet de la résolution et de la mise à l'échelle de l'entréeEn profondeur : UNets et alternativesUn simple UNetAméliorer l'UNetArchitectures alternativesEn profondeur : Objectifs de diffusionTemps de projet : Entraîne ton modèle de diffusionRésuméExercicesLes défisRéférences
Ajouter un contrôle : Modèles de diffusion conditionnellePréparation des donnéesCréation d'un modèle conditionné par la classeFormer le modèleÉchantillonnageAméliorer l'efficacité : Diffusion latenteDiffusion stable : Composants en profondeurL'encodeur de texteL'autoencodeur variationnelL'UNetDiffusion stable XLFLUX, SD3 et VidéoGuidance sans classificateurRassembler tout cela : Boucle d'échantillonnage annotéeDonnées ouvertes, modèles ouvertsLes défis et le coucher de soleil de LAION-5BAlternativesUtilisation équitable et commercialeTemps de projet : Construire une démo ML interactive avec GradioRésuméExercicesDéfiRéférences
Classer le texteIdentifier un ensemble de donnéesDéfinir le type de modèle à utiliserChoisis un bon modèle de basePrétraitement de l'ensemble de donnéesDéfinir les critères d'évaluationForme le modèleToujours d'actualité ?Générer du texteChoisir le bon modèle génératifFormation d'un modèle génératifInstructionsUne introduction rapide aux adaptateursUne introduction légère à la quantificationAssembler le toutUne plongée plus profonde dans l'évaluationDurée du projet : Génération assistée par récupérationRésuméExercicesDéfiRéférences
Réglage fin de la diffusion entièrement stablePréparation de l'ensemble de donnéesAffiner le modèleInférenceDreamBoothPréparation de l'ensemble de donnéesPréservation antérieureDreamBoothing le modèleInférenceFormation des ARSDonner à la diffusion stable de nouvelles capacitésPeintureEntrées supplémentaires pour les conditionnements spéciauxDurée du projet : former soi-même un SDXL DreamBooth LoRARésuméExercicesDéfiRéférences

Image à imagePeinturePondération des prompts et édition d'imagesPondération et fusion des promptsÉdition d'images de diffusion avec guidage sémantiqueÉdition d'images réelles par inversionÉdition avec LEDITS++Edition d'images réelles grâce à l'affinage des instructionsControlNetLes messages-guides et les variations d'imagesVariations d'imagesPrompt à l'emploi de l'imageLe temps du projet : ton canevas créatifRésuméExercicesRéférences
Données audioFormes d'ondesSpectrogrammesConversion de la parole en texte à l'aide d'architectures basées sur des transformateursTechniques basées sur le codeurTechniques de codage-décodageDu modèle au pipelineL'évaluationDu texte à la parole à l'audio génératifGénérer de l'audio avec des modèles de séquence à séquenceAller au-delà de la parole avec l'écorceAudioLM et MusicLMAudioGen et MusicGenDiffusion audio et riffusionDiffusion de la danseEn savoir plus sur les modèles de diffusion pour l'audio génératifÉvaluer les systèmes de génération audioQuelle est la prochaine étape ?Durée du projet : Système de conversation de bout en boutRésuméExercicesLes défisRéférences
Optimisation des préférencesContextes longsMélange d'expertsOptimisations et quantificationsDonnéesUn modèle pour tous les gouvernerVision par ordinateurVision 3D par ordinateurGénération vidéoMultimodalitéCommunauté
L'empilement de visages qui s'enlacentDonnéesEnveloppeInférence localeOutils de déploiement
Exigences en matière de mémoire d'inférenceExigences en matière de mémoire de formationPour en savoir plus
Traitement des donnéesIntégrer les documentsRécupérationGénérationNiveau de production RAG

Content preview from L'IA générative pratique avec les transformateurs et les modèles de diffusion

Chapitre 6. Affiner les modèles linguistiques

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Au chapitre 2, nous avons exploré le fonctionnement des LM et la façon de les utiliser pour des tâches telles que la génération de textes et la classification de séquences. Nous avons vu que les LM pouvaient être utiles dans de nombreuses tâches sans entraînement supplémentaire, grâce à un prompt approprié et aux capacités de zéro-coup de ces modèles. Nous avons également exploré quelques-uns des centaines de milliers de modèles pré-entraînés par la communauté. Dans ce chapitre, nous verrons comment nous pouvons améliorer les performances des LM sur des tâches spécifiques en les affinant sur nos données.

Bien que les modèles préformés présentent des capacités remarquables, leur formation générale peut ne pas être adaptée à certaines tâches ou à certains domaines. Le réglage fin est fréquemment utilisé pour adapter la compréhension du modèle aux nuances de l'ensemble de données ou de la tâche. Par exemple, dans le domaine de la recherche médicale, un LM formé sur du texte web général ne sera pas très performant. Nous pouvons donc l'affiner sur un ensemble de données de littérature médicale afin d'améliorer sa capacité à générer du texte médical pertinent ou à aider à l'extraction d'informations à partir de documents de santé. Un autre exemple concerne la création de modèles conversationnels. Bien que les ...