L'IA générative pratique avec les transformateurs et les modèles de diffusion
by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker
Chapitre 8. Applications créatives desmodèles texte-image
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre présente des applications créatives qui exploitent les modèles texte-image et augmentent leurs capacités au-delà de la simple utilisation du texte pour contrôler la génération. Nous commencerons par les applications les plus basiques, puis nous passerons à des applications plus avancées.
Image à image
Même bien que les modèles génératifs de diffusion texte-image comme Stable Diffusion puissent produire des images à partir de texte à partir d'une image entièrement bruitée, comme tu l'as appris dans les chapitres 4 et 5, il est possible de partir d'une image déjà existante au lieu d'une image entièrement bruitée. Cela signifie qu'il faut ajouter du bruit à une image initiale et faire en sorte que le modèle la modifie partiellement en la débruitant. Ce processus est appelé image à image, car une image est transformée en une autre image en fonction de son degré de bruit et en fonction du texte prompt.
Avec la bibliothèque des diffuseurs,, nous pouvons charger un pipeline image à image pour charger la classe. À titre d'exemple, explorons comment utiliser SDXL pour cette tâche. Voici les principales différences :
-
Nous utilisons le
StableDiffusionXLImg2ImgPipelineplutôt que leStableDiffusionXLPipelinehabituel. -
Nous passons à la fois un prompt et une image initiale au pipeline.