Prólogo

Se está produciendo un milagro mientras lees estas líneas: los garabatos de esta página se están transformando en palabras y conceptos y emociones a medida que navegan por tu corteza cerebral. Mis pensamientos de noviembre de 2021 han invadido con éxito tu cerebro. Si consiguen captar tu atención y sobrevivir el tiempo suficiente en este entorno duro y altamente competitivo, pueden tener la oportunidad de reproducirse de nuevo cuando compartas estos pensamientos con otras personas. Gracias al lenguaje, los pensamientos se han convertido en gérmenes cerebrales aerotransportados y altamente contagiosos, y no hay vacuna en camino.

Por suerte, la mayoría de los gérmenes cerebrales son inofensivos,1 y unos pocos son maravillosamente útiles. De hecho, los gérmenes cerebrales de la humanidad constituyen dos de nuestros tesoros más preciados: el conocimiento y la cultura. Al igual que no podemos digerir correctamente sin bacterias intestinales sanas, no podemos pensar correctamente sin gérmenes cerebrales sanos. La mayoría de tus pensamientos no son realmente tuyos: surgieron, crecieron y evolucionaron en muchos otros cerebros antes de infectarte. Así que si queremos construir máquinas inteligentes, tendremos que encontrar la forma de infectarlas también.

La buena noticia es que en los últimos años se ha producido otro milagro: varios avances en el aprendizaje profundo han dado lugar a potentes modelos de lenguaje. Puesto que estás leyendo este libro, probablemente hayas visto algunas demostraciones asombrosas de estos modelos de lenguaje, como el GPT-3, que ante una indicación breve como "una rana conoce a un cocodrilo" puede escribir una historia entera. Aunque todavía no es Shakespeare, a veces cuesta creer que estos textos hayan sido escritos por una red neuronal artificial. De hecho, el sistema Copilot de GitHub me está ayudando a escribir estas líneas: nunca sabrás cuánto he escrito realmente.

La revolución va mucho más allá de la generación de textos. Abarca todo el ámbito del procesamiento del lenguaje natural (PLN), desde la clasificación de textos hasta el resumen, la traducción, la respuesta a preguntas, los chatbots, la comprensión del lenguaje natural (NLU) y mucho más. Dondequiera que haya lenguaje, habla o texto, hay una aplicación para la PNL. Ya puedes preguntar a tu teléfono el tiempo que hará mañana, o chatear con un asistente virtual para solucionar un problema, u obtener resultados significativos de los motores de búsqueda que parecen entender realmente tu consulta. Pero la tecnología es tan nueva que probablemente lo mejor esté aún por llegar.

Como la mayoría de los avances de la ciencia, esta reciente revolución de la PNL se basa en el duro trabajo de cientos de héroes anónimos. Pero destacan tres ingredientes clave de su éxito:

  • El transformador es una arquitectura de red neuronal propuesta en 2017 en un innovador artículo titulado "Attention Is All You Need" (La atención es todo lo que necesitas), publicado por un equipo de investigadores de Google. En pocos años arrasó en este campo, aplastando a las arquitecturas anteriores, que solían basarse en redes neuronales recurrentes (RNN). La arquitectura Transformer es excelente para captar patrones en largas secuencias de datos y tratar con enormes conjuntos de datos, hasta el punto de que su uso se está extendiendo mucho más allá de la PNL, por ejemplo a tareas de procesamiento de imágenes.

  • En la mayoría de los proyectos, no tendrás acceso a un enorme conjunto de datos para entrenar un modelo desde cero. Por suerte, a menudo es posible descargar un modelo preentrenado en un conjunto de datos genérico: todo lo que tienes que hacer es ajustarlo en tu propio conjunto de datos (mucho más pequeño). El preentrenamiento se ha generalizado en el procesamiento de imágenes desde principios de la década de 2010, pero en la PNL se limitaba a incrustaciones de palabras sin contexto (es decir, representaciones vectoriales densas de palabras individuales). Por ejemplo, la palabra "oso" tenía la misma incrustación preentrenada en "osito" y en "osito". Luego, en 2018, varios artículos propusieron modelos lingüísticos completos que podían preentrenarse y ajustarse para diversas tareas de PNL; esto cambió completamente las reglas del juego.

  • Los centros de modelos como Hugging Face también han cambiado las reglas del juego. Al principio, los modelos preentrenados se publicaban en cualquier sitio, así que no era fácil encontrar lo que necesitabas. La ley de Murphy garantizaba que los usuarios de PyTorch sólo encontrarían modelos de TensorFlow, y viceversa. Y cuando encontrabas un modelo, averiguar cómo ajustarlo no siempre era fácil. Aquí es donde entra en juego la biblioteca Transformers de Hugging Face: es de código abierto, compatible tanto con TensorFlow como con PyTorch, y facilita la descarga de un modelo preentrenado de última generación desde el Hub de Hugging Face, configurarlo para tu tarea, ajustarlo en tu conjunto de datos y evaluarlo. El uso de la biblioteca está creciendo rápidamente: en el cuarto trimestre de 2021 la utilizaban más de cinco mil organizaciones y se instalaba utilizando pip más de cuatro millones de veces al mes. Además, la biblioteca y su ecosistema se están expandiendo más allá de la PNL: también hay disponibles modelos de procesamiento de imágenes. También puedes descargar numerosos conjuntos de datos del Hub para entrenar o evaluar tus modelos.

¿Qué más se puede pedir? Pues este libro. Ha sido escrito por desarrolladores de código abierto de Hugging Face -incluido el creador de la biblioteca Transformers- y se nota: la amplitud y profundidad de la información que encontrarás en estas páginas es asombrosa. Lo cubre todo, desde la propia arquitectura Transformer hasta la biblioteca Transformers y todo el ecosistema que la rodea. Me gustó especialmente el enfoque práctico: puedes seguirlo en cuadernos Jupyter, y todos los ejemplos de código van directos al grano y son fáciles de entender. Los autores tienen una amplia experiencia en la formación de modelos de transformadores muy grandes, y proporcionan una gran cantidad de consejos y trucos para conseguir que todo funcione con eficacia. Por último, pero no por ello menos importante, su estilo de escritura es directo y animado: se lee como una novela.

En resumen, he disfrutado mucho con este libro, y estoy seguro de que tú también lo harás. Cualquiera que esté interesado en crear productos con funciones de procesamiento del lenguaje de última generación tiene que leerlo. Está repleto de todos los gérmenes cerebrales adecuados.

1 Para consejos sobre higiene cerebral, consulta el excelente vídeo de CGP Grey sobre los memes.

Get Procesamiento del Lenguaje Natural con Transformadores, Edición Revisada now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.