book

L'IA générative pratique avec les transformateurs et les modèles de diffusion

Name: L'IA générative pratique avec les transformateurs et les modèles de diffusion
ISBN: 9798341631410

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

March 2025

Intermediate to advanced

418 pages

12h 29m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Qui devrait lire ce livre ?Conditions préalablesCe que tu apprendrasComment lire ce livreExigences en matière de logiciels et de matérielConventions utilisées dans ce livreUtilisation d'exemples de codeComment nous contacterL'état de l'art : Une cible mouvanteRemerciementsJonathanApolinárioPedroOmar
I. Tirer parti des modèles ouverts
1. Introduction aux médias génératifs
Générer des imagesGénérer du texteGénérer des clips sonoresImplications éthiques et sociétalesOù nous en sommes et où en sommes-nous ?Comment sont créés les modèles d'IA générative ?Résumé
2. Transformateurs
Un modèle linguistique en actionTokenisation du textePrévoir les probabilitésGénérer du texteGénéralisation du tir à zéroGénéralisation de quelques tirsUn bloc transformateurModèle de transformateur GénéalogieTâches de séquence à séquenceModèles à encodeur seulLe pouvoir de la préformationRécapitulation de TransformersLimitesAu-delà du texteTemps de projet : Utilisation des LM pour générer du texteRésuméExercicesLes défisRéférences
3. Compression et représentation des informations
AutoEncodersPréparation des donnéesModélisation de l'encodeurDécodeurFormationExplorer l'espace latentVisualiser l'espace latentAutoencodeurs variationnelsEncodeurs et décodeurs VAEÉchantillonnage de la distribution de l'encodeurFormer la VAEVAE pour la modélisation générativeCLIPPerte contrastiveUtiliser CLIP, étape par étapeClassification d'images sans prise de vue avec CLIPPipeline de classification d'images à partir de zéroCas d'utilisation de CLIPAlternatives à CLIPDurée du projet : Recherche sémantique d'imagesRésuméExercicesLes défisRéférences
4. Modèles de diffusion
L'idée clé : le raffinement itératifFormation d'un modèle de diffusionLes donnéesAjouter du bruitL'UNetFormationÉchantillonnageL'évaluationEn profondeur : Horaires de bruitPourquoi ajouter du bruit ?Commencer simpleLes mathématiquesEffet de la résolution et de la mise à l'échelle de l'entréeEn profondeur : UNets et alternativesUn simple UNetAméliorer l'UNetArchitectures alternativesEn profondeur : Objectifs de diffusionTemps de projet : Entraîne ton modèle de diffusionRésuméExercicesLes défisRéférences
5. Diffusion stable et génération conditionnelle
Ajouter un contrôle : Modèles de diffusion conditionnellePréparation des donnéesCréation d'un modèle conditionné par la classeFormer le modèleÉchantillonnageAméliorer l'efficacité : Diffusion latenteDiffusion stable : Composants en profondeurL'encodeur de texteL'autoencodeur variationnelL'UNetDiffusion stable XLFLUX, SD3 et VidéoGuidance sans classificateurRassembler tout cela : Boucle d'échantillonnage annotéeDonnées ouvertes, modèles ouvertsLes défis et le coucher de soleil de LAION-5BAlternativesUtilisation équitable et commercialeTemps de projet : Construire une démo ML interactive avec GradioRésuméExercicesDéfiRéférences
II. Apprentissage par transfert pour les modèles génératifs
6. Affiner les modèles linguistiques
Classer le texteIdentifier un ensemble de donnéesDéfinir le type de modèle à utiliserChoisis un bon modèle de basePrétraitement de l'ensemble de donnéesDéfinir les critères d'évaluationForme le modèleToujours d'actualité ?Générer du texteChoisir le bon modèle génératifFormation d'un modèle génératifInstructionsUne introduction rapide aux adaptateursUne introduction légère à la quantificationAssembler le toutUne plongée plus profonde dans l'évaluationDurée du projet : Génération assistée par récupérationRésuméExercicesDéfiRéférences
7. Réglage fin de la diffusion stable
Réglage fin de la diffusion entièrement stablePréparation de l'ensemble de donnéesAffiner le modèleInférenceDreamBoothPréparation de l'ensemble de donnéesPréservation antérieureDreamBoothing le modèleInférenceFormation des ARSDonner à la diffusion stable de nouvelles capacitésPeintureEntrées supplémentaires pour les conditionnements spéciauxDurée du projet : former soi-même un SDXL DreamBooth LoRARésuméExercicesDéfiRéférences

III. Aller plus loin
8. Applications créatives des modèles texte-image
Image à imagePeinturePondération des prompts et édition d'imagesPondération et fusion des promptsÉdition d'images de diffusion avec guidage sémantiqueÉdition d'images réelles par inversionÉdition avec LEDITS++Edition d'images réelles grâce à l'affinage des instructionsControlNetLes messages-guides et les variations d'imagesVariations d'imagesPrompt à l'emploi de l'imageLe temps du projet : ton canevas créatifRésuméExercicesRéférences
9. Générer de l'audio
Données audioFormes d'ondesSpectrogrammesConversion de la parole en texte à l'aide d'architectures basées sur des transformateursTechniques basées sur le codeurTechniques de codage-décodageDu modèle au pipelineL'évaluationDu texte à la parole à l'audio génératifGénérer de l'audio avec des modèles de séquence à séquenceAller au-delà de la parole avec l'écorceAudioLM et MusicLMAudioGen et MusicGenDiffusion audio et riffusionDiffusion de la danseEn savoir plus sur les modèles de diffusion pour l'audio génératifÉvaluer les systèmes de génération audioQuelle est la prochaine étape ?Durée du projet : Système de conversation de bout en boutRésuméExercicesLes défisRéférences
10. Domaines d'avancement rapide de l'IA générative
Optimisation des préférencesContextes longsMélange d'expertsOptimisations et quantificationsDonnéesUn modèle pour tous les gouvernerVision par ordinateurVision 3D par ordinateurGénération vidéoMultimodalitéCommunauté
A. Outils Open Source
L'empilement de visages qui s'enlacentDonnéesEnveloppeInférence localeOutils de déploiement
B. Exigences en matière de mémoire du LLM
Exigences en matière de mémoire d'inférenceExigences en matière de mémoire de formationPour en savoir plus
C. Récupération de bout en bout - Génération augmentée
Traitement des donnéesIntégrer les documentsRécupérationGénérationNiveau de production RAG
Index
A propos des auteurs

Content preview from L'IA générative pratique avec les transformateurs et les modèles de diffusion

Annexe B. Exigences en matière de mémoire du LLM

Les modèles existent dans toutes les tailles ! Le lama 3.1, par exemple, a été publié avec des variantes 8B, 70B et 405B. Pour charger et utiliser un LLM, tu as besoin de suffisamment de mémoire pour stocker le modèle. Le nombre de paramètres et leur précision, entre autres facteurs, influencent les besoins en mémoire d'un LLM.

Que peux-tu faire si tu n'as pas assez de mémoire ? Essaie les options suivantes :

Réduis la précision du modèle que tu utilises. Plutôt que d'utiliser float16, tu peux utiliser int8.
Utilise un modèle plus petit. Il existe de nombreux petits modèles de grande qualité.
Décharge les parties du modèle que tu n'utilises pas. Cela peut se faire à l'aide de CPU RAM offloading, une technique courante pour réduire les besoins en mémoire d'un modèle au prix d'une vitesse d'inférence plus lente. Que se passe-t-il s'il n'y a pas assez de mémoire ? Nous pouvons alors stocker les parties restantes du modèle sur le disque et les charger au besoin. Heureusement pour nous, la bibliothèque accelerate s'occupe de cela via device_map="auto", qui déchargera automatiquement les parties du modèle au fur et à mesure des besoins.

Exigences en matière de mémoire d'inférence

Tu peux estimer grossièrement les besoins en mémoire comme suit :

GPU mémoire nécessaires = Nombre de paramètres \times Octets par paramètre

Le nombre d'octets par paramètre dépend de la précision utilisée. Sans entrer dans les détails, le tableau ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Apprentissage profond pour les codeurs avec fastai et PyTorch

Publisher Resources

ISBN: 9798341631410

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

L'IA générative pratique avec les transformateurs et les modèles de diffusion

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

Annexe B. Exigences en matière de mémoire du LLM

Exigences en matière de mémoire d'inférence

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.