Capítulo 2. Tokens e Incrustaciones
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Tokens y embeddings son dos de los conceptos centrales del uso de grandes modelos lingüísticos (LLMs). Como hemos visto en el primer capítulo, no sólo son importantes para comprender la historia de la Inteligencia Artificial Lingüística, sino que no podemos tener una idea clara de cómo funcionan los LLMs, cómo se construyen y hacia dónde irán en el futuro sin una buena noción de los tokens y las incrustaciones, como podemos ver en la Figura 2-1.
Figura 2-1. Los modelos lingüísticos tratan el texto en pequeños trozos llamados tokens. Para que el modelo lingüístico calcule el lenguaje, necesita convertir los tokens en representaciones numéricas llamadas incrustaciones.
En este capítulo examinaremos más detenidamente qué son los tokens y los métodos de tokenización utilizados para potenciar los LLMs. Luego nos sumergiremos en el famoso método de incrustación word2vec que precedió a los LLMs modernos y veremos cómo se está extendiendo el concepto de incrustación de tokens para construir sistemas comerciales de recomendación que potencian muchas de las aplicaciones que utilizas. Por último, pasamos de la incrustación de tokens a la incrustación de frases o texto, donde una frase o documento completo puede tener un vector que lo represente, ...