book

L'IA générative pratique avec les transformateurs et les modèles de diffusion

Name: L'IA générative pratique avec les transformateurs et les modèles de diffusion
ISBN: 9798341631410

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

March 2025

Intermediate to advanced

418 pages

12h 29m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Qui devrait lire ce livre ?Conditions préalablesCe que tu apprendrasComment lire ce livreExigences en matière de logiciels et de matérielConventions utilisées dans ce livreUtilisation d'exemples de codeComment nous contacterL'état de l'art : Une cible mouvanteRemerciementsJonathanApolinárioPedroOmar
I. Tirer parti des modèles ouverts
1. Introduction aux médias génératifs
Générer des imagesGénérer du texteGénérer des clips sonoresImplications éthiques et sociétalesOù nous en sommes et où en sommes-nous ?Comment sont créés les modèles d'IA générative ?Résumé
2. Transformateurs
Un modèle linguistique en actionTokenisation du textePrévoir les probabilitésGénérer du texteGénéralisation du tir à zéroGénéralisation de quelques tirsUn bloc transformateurModèle de transformateur GénéalogieTâches de séquence à séquenceModèles à encodeur seulLe pouvoir de la préformationRécapitulation de TransformersLimitesAu-delà du texteTemps de projet : Utilisation des LM pour générer du texteRésuméExercicesLes défisRéférences
3. Compression et représentation des informations
AutoEncodersPréparation des donnéesModélisation de l'encodeurDécodeurFormationExplorer l'espace latentVisualiser l'espace latentAutoencodeurs variationnelsEncodeurs et décodeurs VAEÉchantillonnage de la distribution de l'encodeurFormer la VAEVAE pour la modélisation générativeCLIPPerte contrastiveUtiliser CLIP, étape par étapeClassification d'images sans prise de vue avec CLIPPipeline de classification d'images à partir de zéroCas d'utilisation de CLIPAlternatives à CLIPDurée du projet : Recherche sémantique d'imagesRésuméExercicesLes défisRéférences
4. Modèles de diffusion
L'idée clé : le raffinement itératifFormation d'un modèle de diffusionLes donnéesAjouter du bruitL'UNetFormationÉchantillonnageL'évaluationEn profondeur : Horaires de bruitPourquoi ajouter du bruit ?Commencer simpleLes mathématiquesEffet de la résolution et de la mise à l'échelle de l'entréeEn profondeur : UNets et alternativesUn simple UNetAméliorer l'UNetArchitectures alternativesEn profondeur : Objectifs de diffusionTemps de projet : Entraîne ton modèle de diffusionRésuméExercicesLes défisRéférences
5. Diffusion stable et génération conditionnelle
Ajouter un contrôle : Modèles de diffusion conditionnellePréparation des donnéesCréation d'un modèle conditionné par la classeFormer le modèleÉchantillonnageAméliorer l'efficacité : Diffusion latenteDiffusion stable : Composants en profondeurL'encodeur de texteL'autoencodeur variationnelL'UNetDiffusion stable XLFLUX, SD3 et VidéoGuidance sans classificateurRassembler tout cela : Boucle d'échantillonnage annotéeDonnées ouvertes, modèles ouvertsLes défis et le coucher de soleil de LAION-5BAlternativesUtilisation équitable et commercialeTemps de projet : Construire une démo ML interactive avec GradioRésuméExercicesDéfiRéférences
II. Apprentissage par transfert pour les modèles génératifs
6. Affiner les modèles linguistiques
Classer le texteIdentifier un ensemble de donnéesDéfinir le type de modèle à utiliserChoisis un bon modèle de basePrétraitement de l'ensemble de donnéesDéfinir les critères d'évaluationForme le modèleToujours d'actualité ?Générer du texteChoisir le bon modèle génératifFormation d'un modèle génératifInstructionsUne introduction rapide aux adaptateursUne introduction légère à la quantificationAssembler le toutUne plongée plus profonde dans l'évaluationDurée du projet : Génération assistée par récupérationRésuméExercicesDéfiRéférences
7. Réglage fin de la diffusion stable
Réglage fin de la diffusion entièrement stablePréparation de l'ensemble de donnéesAffiner le modèleInférenceDreamBoothPréparation de l'ensemble de donnéesPréservation antérieureDreamBoothing le modèleInférenceFormation des ARSDonner à la diffusion stable de nouvelles capacitésPeintureEntrées supplémentaires pour les conditionnements spéciauxDurée du projet : former soi-même un SDXL DreamBooth LoRARésuméExercicesDéfiRéférences

III. Aller plus loin
8. Applications créatives des modèles texte-image
Image à imagePeinturePondération des prompts et édition d'imagesPondération et fusion des promptsÉdition d'images de diffusion avec guidage sémantiqueÉdition d'images réelles par inversionÉdition avec LEDITS++Edition d'images réelles grâce à l'affinage des instructionsControlNetLes messages-guides et les variations d'imagesVariations d'imagesPrompt à l'emploi de l'imageLe temps du projet : ton canevas créatifRésuméExercicesRéférences
9. Générer de l'audio
Données audioFormes d'ondesSpectrogrammesConversion de la parole en texte à l'aide d'architectures basées sur des transformateursTechniques basées sur le codeurTechniques de codage-décodageDu modèle au pipelineL'évaluationDu texte à la parole à l'audio génératifGénérer de l'audio avec des modèles de séquence à séquenceAller au-delà de la parole avec l'écorceAudioLM et MusicLMAudioGen et MusicGenDiffusion audio et riffusionDiffusion de la danseEn savoir plus sur les modèles de diffusion pour l'audio génératifÉvaluer les systèmes de génération audioQuelle est la prochaine étape ?Durée du projet : Système de conversation de bout en boutRésuméExercicesLes défisRéférences
10. Domaines d'avancement rapide de l'IA générative
Optimisation des préférencesContextes longsMélange d'expertsOptimisations et quantificationsDonnéesUn modèle pour tous les gouvernerVision par ordinateurVision 3D par ordinateurGénération vidéoMultimodalitéCommunauté
A. Outils Open Source
L'empilement de visages qui s'enlacentDonnéesEnveloppeInférence localeOutils de déploiement
B. Exigences en matière de mémoire du LLM
Exigences en matière de mémoire d'inférenceExigences en matière de mémoire de formationPour en savoir plus
C. Récupération de bout en bout - Génération augmentée
Traitement des donnéesIntégrer les documentsRécupérationGénérationNiveau de production RAG
Index
A propos des auteurs

Content preview from L'IA générative pratique avec les transformateurs et les modèles de diffusion

Chapitre 9. Générer de l'audio

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Dans le chapitre 1, nous avons entrevu le potentiel de la génération audio avec un pipeline de transformateurs basé sur le modèle MusicGen de Meta. Ce chapitre plonge dans l'audio génératif, en utilisant à la fois des techniques de diffusion et des techniques basées sur les transformateurs, qui introduiront un nouvel ensemble de défis et d'applications passionnants. Imagine que tu puisses supprimer tous les bruits de fond en temps réel pendant un appel, que tu puisses obtenir des transcriptions et des résumés de haute qualité de conférences, ou qu'un chanteur puisse régénérer ses chansons dans d'autres langues. Tu pourrais même générer un thème de compositions de Mozart et de Billie Eilish qui prendrait une tournure mariachi. Voilà la trajectoire de ce domaine, qui s'annonce passionnante.

Quelles sortes de choses pouvons-nous faire avec la reconnaissance vocale et l'audio ? Les deux tâches les plus courantes sont la transcription de la parole en texte (reconnaissance automatique de la parole, ou ASR) et la génération de parole à partir de texte (text to speech). Dans la reconnaissance automatique de la parole, un modèle reçoit en entrée le son d'une personne (ou de plusieurs personnes) qui parle et produit le texte correspondant. Pour certains modèles, la sortie contient des informations supplémentaires, telles que la ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Apprentissage profond pour les codeurs avec fastai et PyTorch

Publisher Resources

ISBN: 9798341631410

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

L'IA générative pratique avec les transformateurs et les modèles de diffusion

by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker

Chapitre 9. Générer de l'audio

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.