book

L'IA générative pratique avec les transformateurs et les modèles de diffusion

Name: L'IA générative pratique avec les transformateurs et les modèles de diffusion
ISBN: 9798341631410

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

March 2025

Intermediate to advanced

418 pages

12h 29m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Qui devrait lire ce livre ?Conditions préalablesCe que tu apprendrasComment lire ce livreExigences en matière de logiciels et de matérielConventions utilisées dans ce livreUtilisation d'exemples de codeComment nous contacterL'état de l'art : Une cible mouvanteRemerciementsJonathanApolinárioPedroOmar
I. Tirer parti des modèles ouverts
1. Introduction aux médias génératifs
Générer des imagesGénérer du texteGénérer des clips sonoresImplications éthiques et sociétalesOù nous en sommes et où en sommes-nous ?Comment sont créés les modèles d'IA générative ?Résumé
2. Transformateurs
Un modèle linguistique en actionTokenisation du textePrévoir les probabilitésGénérer du texteGénéralisation du tir à zéroGénéralisation de quelques tirsUn bloc transformateurModèle de transformateur GénéalogieTâches de séquence à séquenceModèles à encodeur seulLe pouvoir de la préformationRécapitulation de TransformersLimitesAu-delà du texteTemps de projet : Utilisation des LM pour générer du texteRésuméExercicesLes défisRéférences
3. Compression et représentation des informations
AutoEncodersPréparation des donnéesModélisation de l'encodeurDécodeurFormationExplorer l'espace latentVisualiser l'espace latentAutoencodeurs variationnelsEncodeurs et décodeurs VAEÉchantillonnage de la distribution de l'encodeurFormer la VAEVAE pour la modélisation générativeCLIPPerte contrastiveUtiliser CLIP, étape par étapeClassification d'images sans prise de vue avec CLIPPipeline de classification d'images à partir de zéroCas d'utilisation de CLIPAlternatives à CLIPDurée du projet : Recherche sémantique d'imagesRésuméExercicesLes défisRéférences
4. Modèles de diffusion
L'idée clé : le raffinement itératifFormation d'un modèle de diffusionLes donnéesAjouter du bruitL'UNetFormationÉchantillonnageL'évaluationEn profondeur : Horaires de bruitPourquoi ajouter du bruit ?Commencer simpleLes mathématiquesEffet de la résolution et de la mise à l'échelle de l'entréeEn profondeur : UNets et alternativesUn simple UNetAméliorer l'UNetArchitectures alternativesEn profondeur : Objectifs de diffusionTemps de projet : Entraîne ton modèle de diffusionRésuméExercicesLes défisRéférences
5. Diffusion stable et génération conditionnelle
Ajouter un contrôle : Modèles de diffusion conditionnellePréparation des donnéesCréation d'un modèle conditionné par la classeFormer le modèleÉchantillonnageAméliorer l'efficacité : Diffusion latenteDiffusion stable : Composants en profondeurL'encodeur de texteL'autoencodeur variationnelL'UNetDiffusion stable XLFLUX, SD3 et VidéoGuidance sans classificateurRassembler tout cela : Boucle d'échantillonnage annotéeDonnées ouvertes, modèles ouvertsLes défis et le coucher de soleil de LAION-5BAlternativesUtilisation équitable et commercialeTemps de projet : Construire une démo ML interactive avec GradioRésuméExercicesDéfiRéférences
II. Apprentissage par transfert pour les modèles génératifs
6. Affiner les modèles linguistiques
Classer le texteIdentifier un ensemble de donnéesDéfinir le type de modèle à utiliserChoisis un bon modèle de basePrétraitement de l'ensemble de donnéesDéfinir les critères d'évaluationForme le modèleToujours d'actualité ?Générer du texteChoisir le bon modèle génératifFormation d'un modèle génératifInstructionsUne introduction rapide aux adaptateursUne introduction légère à la quantificationAssembler le toutUne plongée plus profonde dans l'évaluationDurée du projet : Génération assistée par récupérationRésuméExercicesDéfiRéférences
7. Réglage fin de la diffusion stable
Réglage fin de la diffusion entièrement stablePréparation de l'ensemble de donnéesAffiner le modèleInférenceDreamBoothPréparation de l'ensemble de donnéesPréservation antérieureDreamBoothing le modèleInférenceFormation des ARSDonner à la diffusion stable de nouvelles capacitésPeintureEntrées supplémentaires pour les conditionnements spéciauxDurée du projet : former soi-même un SDXL DreamBooth LoRARésuméExercicesDéfiRéférences

III. Aller plus loin
8. Applications créatives des modèles texte-image
Image à imagePeinturePondération des prompts et édition d'imagesPondération et fusion des promptsÉdition d'images de diffusion avec guidage sémantiqueÉdition d'images réelles par inversionÉdition avec LEDITS++Edition d'images réelles grâce à l'affinage des instructionsControlNetLes messages-guides et les variations d'imagesVariations d'imagesPrompt à l'emploi de l'imageLe temps du projet : ton canevas créatifRésuméExercicesRéférences
9. Générer de l'audio
Données audioFormes d'ondesSpectrogrammesConversion de la parole en texte à l'aide d'architectures basées sur des transformateursTechniques basées sur le codeurTechniques de codage-décodageDu modèle au pipelineL'évaluationDu texte à la parole à l'audio génératifGénérer de l'audio avec des modèles de séquence à séquenceAller au-delà de la parole avec l'écorceAudioLM et MusicLMAudioGen et MusicGenDiffusion audio et riffusionDiffusion de la danseEn savoir plus sur les modèles de diffusion pour l'audio génératifÉvaluer les systèmes de génération audioQuelle est la prochaine étape ?Durée du projet : Système de conversation de bout en boutRésuméExercicesLes défisRéférences
10. Domaines d'avancement rapide de l'IA générative
Optimisation des préférencesContextes longsMélange d'expertsOptimisations et quantificationsDonnéesUn modèle pour tous les gouvernerVision par ordinateurVision 3D par ordinateurGénération vidéoMultimodalitéCommunauté
A. Outils Open Source
L'empilement de visages qui s'enlacentDonnéesEnveloppeInférence localeOutils de déploiement
B. Exigences en matière de mémoire du LLM
Exigences en matière de mémoire d'inférenceExigences en matière de mémoire de formationPour en savoir plus
C. Récupération de bout en bout - Génération augmentée
Traitement des donnéesIntégrer les documentsRécupérationGénérationNiveau de production RAG
Index
A propos des auteurs

Content preview from L'IA générative pratique avec les transformateurs et les modèles de diffusion

Annexe C. Récupération de bout en bout - Génération augmentée

Une application populaire des LLM, , consiste à les utiliser pour générer du contenu basé à la fois sur des prompts d'entrée et des informations extraites de l'extérieur. Dans cette annexe, nous allons montrer comment construire un pipeline qui exploite un LLM pré-entraîné et un transformateur de phrases pré-entraîné pour générer du contenu en fonction des entrées de l'utilisateur et d'un ensemble de documents. Nous avons exploré les éléments de base de cette méthode tout au long du livre. Le chapitre 2 a abordé la génération de texte avec les LLMs et la manière d'utiliser les transformateurs de phrases pour encoder le texte. Le chapitre 6 contenait également un projet dans lequel nous avons construit un pipeline RAG minimal.

Discutons des composants d'un système RAG (illustré schématiquement à la figure C-1) :

L'utilisateur saisit une question.
Le pipeline récupère les documents les plus similaires à la question.
Le pipeline transmet à la fois la question et les documents récupérés au LLM.
Le pipeline génère une réponse.

Traitement des données

Comme pour tout projet de ML, la première étape consiste à charger et à traiter les données. Nous allons faire simple en nous concentrant sur un seul sujet. Imaginons que nous voulions que notre modèle génère du contenu lié à la ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Apprentissage profond pour les codeurs avec fastai et PyTorch

Publisher Resources

ISBN: 9798341631410

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

L'IA générative pratique avec les transformateurs et les modèles de diffusion

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

Annexe C. Récupération de bout en bout - Génération augmentée

Figure C-1. Pipeline RAG simplifié

Traitement des données

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.