Parte III. Applicazioni
Nella Parte III esploreremo alcune delle principali applicazioni delle tecniche di modellazione generativa che abbiamo visto finora, tra immagini, testi, musica e giochi. Vedremo anche come questi domini possono essere attraversati utilizzandomodelli multimodali all'avanguardia.
Nel Capitolo 9 ci occuperemo di Transformers, un'architettura all'avanguardia che alimenta la maggior parte dei modelli moderni di generazione del testo. In particolare, esploreremo i meccanismi interni di GPT e costruiremo una nostra versione utilizzando Keras, oltre a vedere come questa architettura sia alla base di strumenti come ChatGPT.
Nel Capitolo 10 analizzeremo alcune delle più importanti architetture GAN che hanno influenzato la generazione di immagini, tra cui ProGAN, StyleGAN, StyleGAN2, SAGAN, BigGAN, VQ-GAN e ViT VQ-GAN. Esploreremo i contributi chiave di ciascuna di esse e cercheremo di capire come la tecnica si è evoluta nel tempo.
Il capitolo 11 analizza la generazione di musica, che presenta ulteriori sfide come la modellazione dell'intonazione e del ritmo musicale. Vedremo che molte delle tecniche che funzionano per la generazione di testi (come Transformers) possono essere applicate anche in questo campo, ma esploreremo anche un'architettura di deep learning nota come MuseGAN che applica un approccio basato su GAN alla generazione di musica.
Il Capitolo 12 mostra come i modelli generativi possono essere utilizzati in altri ambiti dell'apprendimento automatico, ...