CHAPITRE 13 Modèles multimodaux

Objectifs du chapitre :

Apprendre ce que l’on entend par modèle multimodal.

Explorer les rouages de DALL.E 2, un modèle texte-image créé par OpenAI.

Comprendre comment CLIP et les modèles de diffusion tels que GLIDE jouent un rôle d’intégrateur dans l’architecture de DALL.E 2.

Analyser les limites de DALL.E 2 signalées par les auteurs de l’article.

Explorer l’architecture d’Imagen, un modèle texte-image créé par Google Brain.

Découvrir le processus de diffusion latente utilisé par Stable Diffusion, un modèle texte-image open source.

Comprendre les similitudes et les différences entre DALL.E 2, Imagen et Stable Diffusion.

Étudier DrawBench, une suite d’outils comparatifs permettant d’évaluer les modèles ...

Get Deep learning génératif now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.