Capítulo 20. Ajuste de modelos de imagem generativos com LoRA e difusores
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No Capítulo 19, exploraste a ideia de difusores e como os modelos treinados com técnicas de difusão podem gerar imagens com base em prompts. Assim como os modelos baseados em texto (como exploramos no Capítulo 16), os modelos de texto para imagem podem ser ajustados para tarefas específicas. A arquitetura dos modelos de difusão e a forma de os afinar é suficiente para um livro completo, pelo que, neste capítulo, apenas explorarás estes conceitos a um nível elevado. Existem várias técnicas para o fazer, incluindo o DreamBooth, a inversão textual e a mais recente adaptação de baixa classificação (LoRA), que será apresentada passo a passo neste capítulo. Esta última técnica permite-te personalizar modelos para um assunto ou estilo específico com muito poucos dados.
Assim como acontece com os transformadores, a biblioteca de difusores Hugging Face foi projetada para facilitar ao máximo o uso de difusores, bem como o ajuste fino deles. Para isso, inclui scripts pré-construídos que podes usar.
Go, vamos passar por um exemplo completo de criação de um conjunto de dados de uma influenciadora digital fictícia chamada Misato, usando LoRA e difusores para ajustar um modelo de texto para imagem chamado Stable Diffusion 2 para ela. Em seguida, efectuamos a inferência de texto para imagem para demonstrar ...