Capitolo 2. Gettoni e incorporazioni
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
I token e gli embeddings sono due dei concetti centrali dell'utilizzo dei modelli linguistici di grandi dimensioni (LLMs). Come abbiamo visto nel primo capitolo, non solo sono importanti per comprendere la storia dell'IA linguistica, ma non possiamo avere un'idea chiara di come funzionano gli LLMs, di come vengono costruiti e di dove andranno in futuro senza una buona conoscenza dei token e degli embeddings, come si può vedere nella Figura 2-1.
Figura 2-1. I modelli linguistici trattano il testo in piccoli pezzi chiamati token. Per calcolare il linguaggio, il modello linguistico deve trasformare i token in rappresentazioni numeriche chiamate embeddings.
In questo capitolo analizziamo più da vicino cosa sono i token e i metodi di tokenizzazione utilizzati per alimentare gli LLMs. Ci immergeremo poi nel famoso metodo di embedding word2vec che ha preceduto i moderni LLMs e vedremo come si sta estendendo il concetto di token embeddings per costruire sistemi di raccomandazione commerciali che alimentano molte delle app che usi. Infine, Go passa dall'embedding dei token all'embedding delle frasi o del testo, dove un'intera frase o un documento possono avere un vettore che li rappresenta, consentendo applicazioni ...