Capítulo 6. Redes neuronales recurrentesy otros modelos secuenciales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Uno de los grandes temas de este libro hasta ahora han sido los transformadores. De hecho, casi todos los modelos que hemos entrenado hasta ahora han sido algún miembro o pariente de la familia de los transformadores. Incluso los tokenizadores que construimos y utilizamos se construyeron pensando en arquitecturas de transformadores específicas.
Pero los transformadores no son el único modelo de la ciudad.
Los propios transformadores son relativamente recientes: el artículo original de Vaswani et al.1 se publicó por primera vez en arXiv en junio de 2017 (hace eones en la comunidad del aprendizaje profundo, pero no hace demasiado tiempo en la historia de la humanidad). Antes de eso, la gente no utilizaba realmente transformadores. ¿Cuál era la alternativa?
Las redes neuronales recurrentes (RNN) eran el nombre del juego en su día. Con toda nuestra charla sobre cómo los transformadores y el aprendizaje por transferencia han revolucionado el campo, puede que te hayamos dado la (falsa) impresión de que la PNL no existía realmente hasta que apareció el BERT. Esto no es cierto.
Las RNN y sus variantes eran las redes neuronales convolucionales (CNN) de la PNL. En 2015, si querías aprender aprendizaje profundo, la mayoría de los cursos presentaban las CNN como la "solución" para la visión y las RNN como ...
Get Procesamiento del Lenguaje Natural Aplicado en la Empresa now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.