February 2024
Intermediate to advanced
456 pages
12h 6m
French
Objectifs du chapitre :
• Apprendre ce que l’on entend par modèle multimodal.
• Explorer les rouages de DALL.E 2, un modèle texte-image créé par OpenAI.
• Comprendre comment CLIP et les modèles de diffusion tels que GLIDE jouent un rôle d’intégrateur dans l’architecture de DALL.E 2.
• Analyser les limites de DALL.E 2 signalées par les auteurs de l’article.
• Explorer l’architecture d’Imagen, un modèle texte-image créé par Google Brain.
• Découvrir le processus de diffusion latente utilisé par Stable Diffusion, un modèle texte-image open source.
• Comprendre les similitudes et les différences entre DALL.E 2, Imagen et Stable Diffusion.
• Étudier DrawBench, une suite d’outils comparatifs permettant d’évaluer les modèles ...
Read now
Unlock full access