IA generativa prática com transformadores e modelos de difusão
by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker
Capítulo 4. Modelos de difusão
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
O campo da geração de imagens tornou-se muito popular com a introdução das Redes Adversárias Generativas (GANs) por Ian Goodfellow em 2014. As ideias-chave das GANs deram origem a uma grande família de modelos que podiam gerar rapidamente imagens de alta qualidade. No entanto, apesar do seu sucesso, as GANs apresentavam desafios, exigindo muitos parâmetros e ajudando a generalizar de forma eficaz. Estas limitações Spark esforços de pesquisa paralelos, levando à exploração de modelos de difusão - uma classe de modelos que redefiniria o cenário de geração de imagens flexíveis e de alta qualidade.
No final de 2020, uma classe de modelos pouco conhecida, designada por modelos de difusão, começou a causar agitação no mundo do ML. As pesquisas descobriram como utilizar estes modelos de difusão para gerar imagens de maior qualidade do que as produzidas por GANs. Seguiu-se uma enxurrada de artigos, propondo melhorias e modificações que aumentaram ainda mais a qualidade. No final de 2021, modelos como o GLIDE apresentavam resultados incríveis em tarefas de conversão de texto em imagem. Apenas alguns meses mais tarde, estes modelos entraram na moda com ferramentas como o DALL-E 2 e o Stable Diffusion. Estes modelos tornaram fácil para qualquer pessoa gerar imagens apenas escrevendo uma descrição textual do que queria ver.
Neste capítulo, ...