Traitement du langage naturel appliqué à l'entreprise
by Ankur A. Patel, Ajay Uppili Arasanipalai
Chapitre 5. Embeddings : Comment les machines"comprennent" les mots
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Au cours de la première étape de notre voyage dans le NLP de niveau inférieur, nous avons compris comment utiliser des tokenizers pour masser nos données textuelles dans un format plus pratique à lire pour un réseau neuronal. La prochaine pièce du puzzle est la couche d'intégration. Si les tokenizers sont ce que nos modèles utilisent pour lire le texte, les embeddings sont ce qu'ils utilisent pour lecomprendre.
Comprendre ou lire un texte
Depuis longtemps, les machines sont capables de représenter des caractères (et par extension, des mots, des phrases, etc.) sous forme numérique. L'idée d'utiliser un schéma de codage binaire pour le langage et la communication remonte au moins à l'invention du télégraphe au 19ème siècle.
L'une des premières formes de codage de la langue était le code Morse. Dans ce système, des signaux binaires, tels que l'allumage et l'extinction d'une lumière ou l'envoi d'une séquence d'impulsions audio longues et courtes, étaient utilisés pour représenter différents caractères. Si deux personnes disposaient d'un mode de communication binaire et se mettaient d'accord sur une norme concernant la signification des séquences binaires, elles pouvaient communiquer de manière fiable en code Morse. Il s'agissait de l'une des méthodes les plus anciennes et les plus simples ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access