Capitolo 15. Trasformatori per l'elaborazione del linguaggio naturale e i chatbot
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
In un importante articolo del 2017 intitolato "Attention Is All You Need".1 un team di ricercatori di Google ha proposto una nuova architettura di rete neurale denominata Transformer, che ha migliorato significativamente lo stato dell'arte della traduzione neurale automatica (NMT). In breve, l'architettura Transformer è semplicemente un modello encoder-decoder, molto simile a quello costruito nel Capitolo 14 per la traduzione dall'inglese allo spagnolo, e può essere utilizzato esattamente nello stesso modo (vedi Figura 15-1):
-
Il testo di partenza viene inserito nel codificatore, che produce embeddings contestualizzati (uno per token).
-
L'output del codificatore viene poi inviato al decodificatore, insieme al testo tradotto fino a quel momento (a partire da un token di inizio sequenza).
-
Il decodificatore predice il token successivo per ogni token in ingresso.
-
L'ultimo token prodotto dal decodificatore viene aggiunto alla traduzione.
-
I passaggi da 2 a 4 vengono ripetuti più volte per produrre la traduzione completa, un token in più alla volta, fino a quando non viene generato un token di fine sequenza. Durante l'addestramento, abbiamo già la traduzione completa - è l'obiettivo - quindi viene fornita al decodificatore nel passaggio 2 (iniziando con un token ...