book

Modelos de lenguaje grandes prácticos

by Jay Alammar, Maarten Grootendorst

March 2025

Intermediate to advanced

428 pages

11h 21m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Una filosofía que da prioridad a la intuiciónRequisitos previosEstructura del libroParte I: Comprender los modelos lingüísticosParte II: Utilización de modelos lingüísticos preentrenadosParte III: Entrenamiento y ajuste de los modelos lingüísticosRequisitos de hardware y softwareClaves APIConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
¿Qué es la Inteligencia Artificial Lingüística?Historia reciente de la Inteligencia Artificial LingüísticaRepresentar la lengua como una bolsa de palabrasMejores representaciones con incrustaciones vectoriales densasTipos de incrustacionesCodificar y descodificar el contexto con la atenciónAtención es todo lo que necesitasModelos de representación: Modelos sólo codificadorModelos Generativos: Modelos sólo decodificadoresEl año de la IA GenerativaLa conmovedora definición de un "gran modelo lingüístico"El paradigma de entrenamiento de los grandes modelos lingüísticosAplicaciones de los Grandes Modelos Lingüísticos: ¿Qué las hace tan útiles?Desarrollo y uso responsable del LLMSólo necesitas recursos limitadosInterfaz con grandes modelos lingüísticosModelos propios y privadosModelos abiertosMarcos de trabajo de código abiertoGenerar tu primer textoResumen
Tokenización LLMCómo preparan los tokenizadores las entradas al modelo lingüísticoDescargar y ejecutar un LLM¿Cómo descompone el tokenizador el texto?Palabra Versus Subpalabra Versus Carácter Versus Byte TokensComparación de tokenizadores LLM entrenadosPropiedades del tokenizadorIncrustación de tokensUn modelo lingüístico contiene incrustaciones del vocabulario de su tokenizadorCreación de incrustaciones de palabras contextualizadas con modelos lingüísticosIncrustaciones de texto (para frases y documentos completos)Incrustación de palabras más allá de los LLMsUtilizar incrustaciones de palabras preentrenadasEl algoritmo Word2vec y el entrenamiento contrastivoIncrustaciones para sistemas de recomendaciónRecomendar canciones mediante incrustacionesEntrenar un modelo de incrustación de cancionesResumen
Visión general de los modelos de transformadoresEntradas y salidas de un LLM de transformador entrenadoLos componentes del pase hacia delanteElegir una sola ficha de la distribución de probabilidad (muestreo/descodificación)Procesamiento paralelo de tokens y tamaño del contextoAcelerar la generación almacenando en caché claves y valoresInterior del bloque transformadorMejoras recientes en la arquitectura del transformadorAtención más eficazEl bloque transformadorIncrustaciones Posicionales (RoPE)Otros experimentos y mejoras arquitectónicasResumen
El sentimiento de las críticas de cineClasificación de textos con modelos de representaciónSelección del modeloUtilizar un modelo específico para cada tareaTareas de clasificación que aprovechan las incrustacionesClasificación supervisada¿Y si no tenemos datos etiquetados?Clasificación de textos con modelos generativosUtilizar el Transformador de Transferencia de Texto a TextoChatGPT para ClasificaciónResumen
Artículos de ArXiv: Computación y LenguajeUn conducto común para la agrupación de textosIncrustar documentosReducir la dimensionalidad de las incrustacionesAgrupa las Incrustaciones ReducidasInspeccionar las AgrupacionesDe la agrupación de textos al modelado de temasBERTopic: Un marco modular de modelado de temasAñadir un bloque especial de LegoEl Bloque de Lego de Generación de TextoResumen
Utilizar modelos de generación de textoElegir un modelo de generación de textoCargar un modelo de generación de textoControlar la salida del modeloIntroducción a la ingeniería de promptsLos ingredientes básicos de un promptPrompting basado en instruccionesIngeniería de prompts avanzadaLa complejidad potencial de un promptAprendizaje en contexto: Proporcionar ejemplosPrompting en cadena: Romper el problemaRazonar con modelos generativosCadena de pensamiento: Piensa antes de responderAutoconsistencia: Muestreo de salidasÁrbol del Pensamiento: Explorando los pasos intermediosVerificación de salidaProporcionar ejemplosGramática: Muestreo restringidoResumen
E/S de modelos: Carga de modelos cuantizados con LangChainCadenas: Ampliación de las Capacidades de los LLMsUn solo eslabón de la cadena: Plantilla de promptUna Cadena con Múltiples PromptsMemoria: Cómo ayudar a los LLMs a recordar las conversacionesTampón de ConversaciónBuffer de conversación con ventanasResumen de la conversaciónAgentes: Creación de un Sistema de LLMsLa fuerza motriz de los agentes: Razonamiento Paso a PasoReAct en LangChainResumen

Visión general de la búsqueda semántica y la GARBúsqueda semántica con modelos lingüísticosRecuperación densaNueva clasificaciónMétricas de evaluación de la recuperaciónGeneración Mejorada por Recuperación (RAG)De la búsqueda al GAREjemplo: Generación fundamentada con una API LLMEjemplo: GAR con modelos localesTécnicas avanzadas de GAREvaluación RAGResumen
Transformadores para la VisiónModelos de incrustación multimodalCLIP: Conectar texto e imágenes¿Cómo puede CLIP generar incrustaciones multimodales?OpenCLIPHacer que los modelos de generación de textos sean multimodalesBLIP-2: Colmar la brecha entre modalidadesPreprocesamiento de entradas multimodalesCaso práctico 1: Subtitulado de imágenesCaso práctico 2: Prompting multimodal basado en chatResumen
Modelos de incrustación¿Qué es el aprendizaje contrastivo?SBERTCrear un modelo de incrustaciónGenerar ejemplos contrastivosModelo de trenEvaluación en profundidadFunciones de pérdidaAfinar un modelo de incrustaciónSupervisadoSBERT AumentadoAprendizaje no supervisadoAutoencodificador secuencial de eliminación de ruido basado en transformadoresUtilizar TSDAE para la adaptación de dominiosResumen
Clasificación supervisadaAjuste fino de un modelo BERT preentrenadoCongelar capasClasificación de Pocos TirosSetFit: Ajuste Fino Eficaz con Pocos Ejemplos de EntrenamientoAjuste fino para la clasificación de pocos disparosPreentrenamiento continuado con modelado lingüístico enmascaradoReconocimiento de Entidades NombradasPreparación de datos para el reconocimiento de entidades con nombreAjuste fino para el reconocimiento de entidades con nombreResumen
Los Tres Pasos del Entrenamiento LLM: Preentrenamiento, Ajuste Supervisado y Ajuste de PreferenciasAjuste fino supervisado (SFT)Ajuste fino completoAjuste fino eficiente de parámetros (PEFT)Ajuste de instrucciones con QLoRAPlantilla de datos de instrucciónCuantificación del modeloConfiguración LoRAConfiguración de la formaciónFormaciónFusionar pesosEvaluación de modelos generativosMétricas a nivel de palabraPuntos de referenciaTablas de clasificaciónEvaluación automatizadaEvaluación humanaPreferencia-Sintonización / Alineación / RLHFAutomatización de la evaluación de preferencias mediante modelos de recompensaEntradas y salidas de un modelo de recompensaEntrenar un modelo de recompensaModelo de formación sin recompensaAjuste de preferencias con OPDPlantilla de datos de alineaciónCuantificación del modeloConfiguración de la formaciónFormaciónResumen

Content preview from Modelos de lenguaje grandes prácticos

Capítulo 1. Introducción a los grandes modelos lingüísticos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La humanidad se encuentra en un punto de inflexión. A partir de 2012, los avances en la construcción de sistemas de IA (utilizando redes neuronales profundas) se aceleraron de tal modo que, a finales de la década, produjeron el primer sistema de software capaz de escribir artículos indiscernibles de los escritos por humanos. Este sistema era un modelo de IA llamado Generative Pre-trained Transformer 2, o GPT-2. 2022 marcó el lanzamiento de ChatGPT, que demostró hasta qué punto esta tecnología estaba llamada a revolucionar la forma en que interactuamos con la tecnología y la información. Alcanzando un millón de usuarios activos en cinco días y luego cien millones en dos meses, la nueva generación de modelos de IA comenzó como chatbots similares a los humanos, pero evolucionó rápidamente hacia un cambio monumental en nuestro enfoque de las tareas comunes, como la traducción, la generación de texto, el resumen y mucho más. Se convirtió en una herramienta inestimable para programadores, educadores e investigadores.

El éxito de ChatGPT no tuvo precedentes y popularizó la investigación sobre la tecnología que había detrás, es decir, los grandes modelos lingüísticos (LLMs). Tanto los modelos públicos como los privados se lanzaron a un ritmo constante, acercándose y, finalmente, alcanzando el rendimiento de ChatGPT. ...