Traitement du langage naturel appliqué à l'entreprise
by Ankur A. Patel, Ajay Uppili Arasanipalai
Chapitre 6. Réseaux neuronaux récurrentset autres modèles de séquences.
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
L'un des grands thèmes de ce livre jusqu'à présent est celui des transformateurs. En fait, presque tous les modèles que nous avons formés jusqu'à présent étaient des membres ou des parents de la famille des transformateurs. Même les tokenizers que nous avons construits et utilisés l'ont été avec des architectures de transformateurs spécifiques à l'esprit.
Mais les transformateurs ne sont pas le seul modèle en ville.
Les transformateurs eux-mêmes sont relativement récents - l'article original de Vaswani et al.1 a été publié pour la première fois sur arXiv en juin 2017 (il y a des éons dans la communauté du Deep Learning, mais il n'y a pas si longtemps dans l'étendue de l'histoire humaine). Avant cela, les gens n'utilisaient pas vraiment de transformateurs. Alors quelle était l'alternative ?
Les réseaux neuronaux récurrents (RNN) étaient le nom du jeu à l'époque. Avec tout ce que nous avons dit sur la façon dont les transformateurs et l'apprentissage par transfert ont révolutionné le domaine, nous t'avons peut-être donné l'impression (fausse) que la PNL n'existait pas vraiment avant la sortie de BERT. Ce n'est certainement pas le cas.
Les RNN et leurs variantes étaient les réseaux neuronaux convolutifs (CNN) du NLP. En 2015, si tu voulais apprendre le Deep Learning, la plupart des ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access