Capítulo 7. Introdução aos modelos de difusão parageração de imagens
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo apresenta os modelos de difusão mais populares para a geração de imagens de IA. Aprenderás as vantagens e limitações de cada um dos principais modelos, para que possas escolher entre eles com base na tarefa que tens em mãos.
Introduzidos em 2015, os modelos de difusão são uma classe de modelos generativos que têm mostrado resultados espectaculares na geração de imagens a partir de texto. O lançamento do DALL-E 2 em 2022 marcou um grande salto em frente na qualidade das imagens geradas a partir de modelos de difusão, com o Stable Diffusion de código aberto e o favorito da comunidade Midjourney rapidamente seguindo para forjar uma categoria competitiva. Com a integração do DALL-E 3 no ChatGPT, as linhas continuarão a esbater-se entre a geração de texto e de imagem. No entanto, os utilizadores avançados continuarão provavelmente a necessitar de acesso direto ao modelo de geração de imagens subjacente, para obterem os melhores resultados.
Os modelos de difusão são treinados através de várias etapas de adição de ruído aleatório a uma imagem e, em seguida, de previsão de como inverter o processo de difusão através da eliminação de ruído. A abordagem vem da física, onde tem sido utilizada para simular a forma como as partículas se difundem (se espalham) através de um meio. As previsões ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access