Capitolo 7. Introduzione ai modelli di diffusione per lagenerazione di immagini
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Questo capitolo presenta i modelli di diffusione più diffusi per la generazione di immagini AI. Imparerai a conoscere i vantaggi e le limitazioni di ciascuno dei modelli principali, in modo da poter scegliere con sicurezza in base al compito da svolgere.
Introdotti nel 2015, i modelli di diffusione sono una classe di modelli generativi che hanno mostrato risultati spettacolari nella generazione di immagini dal testo. Il rilascio di DALL-E 2 nel 2022 ha segnato un grande balzo in avanti nella qualità delle immagini generate dai modelli di diffusione, con l'open source Stable Diffusion e il preferito dalla comunità Midjourney che l'hanno rapidamente seguito per creare una categoria competitiva. Con l'integrazione di DALL-E 3 in ChatGPT, i confini tra la generazione di testo e quella di immagini continueranno a sfumare. Tuttavia, gli utenti più esperti continueranno a richiedere l'accesso diretto al modello di generazione di immagini sottostante per ottenere i migliori risultati.
I modelli di diffusione sono addestrati attraverso numerosi passaggi che prevedono l 'aggiunta di rumore casuale a un'immagine e poi la previsione di come invertire il processo di diffusione tramite il denoising (rimozione del rumore). L'approccio deriva dalla fisica, dove è stato utilizzato ...