book

Prácticas de implementación y optimización de LLM (Spanish Edition)

Name: Prácticas de implementación y optimización de LLM (Spanish Edition)
ISBN: 0642572383633

by Chi Wang, Peiheng Hu

May 2026

Intermediate

374 pages

12h 12m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Por qué el servicio y la optimización de LLM?Qué pretende este libroA quién va dirigido este libroQué no es este libroCómo está organizado este libroCómo usar este libroLo que vas a necesitarConvenciones utilizadas en este libroUso de los ejemplos de códigoO’Reilly Online LearningCómo contactarnosAgradecimientos
1. Introducción al servicio y la optimización de modelos
Anatomía de un modeloArquitectura del modeloDatos del modeloCódigo de ejecución del modeloCiclo de vida del modelo: del entrenamiento al servicio¿Qué es la implementación de modelos?¿Por qué estudiar el servicio de modelos?¿Por qué optimizar el servicio de modelos (especialmente para LLMs)?Ejemplo: Uso de un marco de implementación de modelos (vLLM) para mejorar el rendimiento de los LLMParadigmas de servicio de modelosServicio en el dispositivo (perímetro)Servicio para un solo modeloServicio multimodeloPlataformas de servicio de modelosResumen
2. Servicio de modelos de lenguaje grandes
Dentro de la mente de un TransformerEvolución de los LLMLa naturaleza autorregresiva de los transformadoresArquitectura de transformadores solo con decodificadorCaptura el contexto de los tokens calculando la atenciónEjecución de la generación de LLM: una guía paso a pasoEjecuta el modelo QwenPredicción del modelo, línea por líneaHabilita la caché KV para mejorar el rendimientoLas fases de prellenado y decodificaciónEjecuta el LLM con un marco de servicio Sirve el LLM (Qwen) con vLLMComparación de rendimiento: vLLM frente a Hugging Face TransformersConceptos básicos del servicio de streaming de LLMConceptos básicos sobre el servicio por lotes de LLMResumen
3. Diseño de sistemas de servicio de modelos: un análisis en profundidad
Crea un servicio de implementación de LLM en línea desde ceroObjetivos de diseñoArquitectura del servicioImplementar el manejo de solicitudes de generación únicaProcesamiento por lotesTransmisión con procesamiento por lotesServicio por lotes con vLLMUn diseño general para el servicio de LLM de un solo modeloRequisitos para el servicio de un solo modeloDiseño generalCrea un servicio de implementación de múltiples modelos desde ceroObjetivos de diseñoArquitectura del servicioImplementación principalUso de NVIDIA Triton como servidor de modelosVentajas y desventajas de los diseños de servicio de modelos múltiplesDesafíosUn diseño multimodelo con costos optimizadosUn diseño multimodelo optimizado para la latenciaResumen
4. Buenas prácticas para el servicio de modelos
Servicio de modelos en un mundo agencialDefinición de agentesUn agente de conocimiento de ejemploEl diseño del agenteEl flujo de trabajo interno del agenteAutonomía del agenteGeneración aumentada por recuperación (RAG)Generación aumentada por caché (CAG)Cómo usan los agentes el servicio de modelosServicio de LLM en sistemas empresariales: una visión generalCapa de API públicaCapa de gestión de recursosCapa de selección y orquestación de modelosCapa de servicio distribuidoCapa de inferencia centralCapa de optimización de modelosCapa de modelosDesarrollo con una pila de código abiertoImplementación de la API públicaImplementación de la selección de modelosImplementación de un punto final de servicio de modelosDesarrollar con un proveedor de nubeOpción 1: Servicio de modelos base totalmente gestionadoOpción 2: Implementación del modelo base con un solo clicOpción 3: Trae tu propio modeloOpción 4: Trae tu propio códigoOpción 5: Trae tu propia imagen de servicioOpción 6: Crea tu propia infraestructura de servicioComparación de las opciones¿Desarrollar o comprar? Entender las estrategiasPor qué ayuda saber cómo construir, incluso si no vas a construirNuestra estrategia de selecciónMedir el rendimiento en el servicio de LLMMétricas de latenciaMétricas de rendimientoBuenas prácticas para la medición del rendimientoResumen
5. Desafíos al implementar LLMs
Por qué es importante optimizar el servicio de LLMExperiencia del clienteEficiencia de costosEscalabilidad, manejo de picos de carga y viabilidadEl papel de los chips aceleradores en el servicio de LLMCómo leer las especificaciones de las GPUComparación de las especificaciones de las GPU más popularesCuellos de botella en la carga de modelos LLMEl proceso de carga del modeloEstimación del tamaño del modeloEstimación del tamaño de la caché KVCuellos de botella en la ejecución de modelos LLMLímites del ancho de banda de computación y memoria de la GPUIntensidad aritmética en las multiplicaciones matricialesAplicación del análisis de intensidad aritmética a las fases de precarga y decodificación de los LLMOtros aceleradores de IA y tendenciasResumen
6. Técnicas esenciales de optimización de LLM
Optimizaciones a nivel de agrupación de solicitudes y programación¿Por qué necesitamos el procesamiento por lotes en el servicio en tiempo real?Agrupación dinámica en la inferencia en líneaAgrupación continua para la inferencia en línea de LLMAgrupación continua con prellenado por fragmentosEscalado de la atención y optimización del kernelMecanismos de atención escalablesFusión de kernels y kernels de atención personalizadosCompresión de modelosCuantificaciónDestilaciónPodaAlmacenamiento en caché de prefijosRadixAttentionCasos de usoBuenas prácticasEscalado de la caché de prefijosResumen
7. Técnicas avanzadas de optimización de LLM
Decodificación especulativaPasos detalladosAjuste y usoPráctica de decodificación especulativaInferencia con múltiples GPU y múltiples nodosParalelismo de datosParalelismo tensorial y paralelismo en pipelineParalelismo expertoDesagregación de precarga-decodificaciónArquitectura generalTransferencia de caché KVCuándo utilizarloAlmacenamiento en caché KV avanzadoServicio de contexto largoCálculos de costo y latenciaLLMs de autoalojamientoPráctica con LMCacheResumen
8. Marcos de implementación de LLM
Por qué necesitamos marcos especializados para el servicio de LLMvLLMArquitectura de vLLMFlujo de trabajo de inicialización del modelo (con trabajador multiproceso)Flujo de trabajo de ejecución de solicitudes de generaciónAnálisis en profundidad del programadorEstrategia de optimización por capas de vLLMTensorRT-LLMSGLangLlama.cppElegir el marco adecuadoResumen
9. La optimización de los LLM en la práctica
Plan de optimización del servicio LLMOptimiza el servicio de Qwen3-14B con vLLMPaso 1: Examina el hardware de la GPUPaso 2: Generar tráfico de referenciaPaso 3: Definir métricas de evaluaciónPaso 4: Configurar el servidor de servicio del modeloPaso 5: Comparar el modelo Qwen3 con vLLMPaso 6: Evalúa el modelo Qwen3 cuantificado con vLLMPaso 7: Aplicar técnicas de optimización adicionalesPaso 8: Comparar el modelo Qwen3 con el servicio distribuidoCompensaciones comunes en la optimizaciónResumen

10. Avances en el servicio de LLM
Almacenamiento en caché semánticoEstrategias de perfilado del rendimientoServicio multimodalProcesamiento de entradas multimodalesImplicaciones arquitectónicas y del sistemaIA en el perímetro: impulsores y facilitadoresHardware especializado de bajo consumoCompresión y optimización del modeloCálculo heterogéneoProgramación con consideración térmicaComputación híbrida entre el perímetro y la nubeServicio Multi-LoRAServicio de modelos en el aprendizaje por refuerzoServicio de LLM en RLDeterminismo en el servicio de RLResumen
Índice
Acerca de los autores

Content preview from Prácticas de implementación y optimización de LLM (Spanish Edition)

Capítulo 7. Técnicasavanzadas de optimización de LLM

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Tras el capítulo anterior, ya cuentas con las técnicas esenciales para hacer frente a muchos de los retos de la optimización del servicio de LLM, especialmente aquellos que no son excesivamente grandes y caben en una sola GPU. Para LLMs más grandes, con, por ejemplo, más de 100 mil millones de parámetros, una sola GPU no suele ser suficiente para cargar el modelo en la memoria de la GPU y generar resultados con una latencia satisfactoria. En este capítulo, exploramos técnicas avanzadas para mejorar aún más el rendimiento del servicio de LLM, incluyendo:

Decodificación especulativa para acelerar la fase de decodificación de la generación de LLM y lograr una latencia entre tokens (ITL) más rápida
Servicio con múltiples GPU y múltiples nodos para grandes LLMs que no caben o no rinden lo suficiente cuando se ejecutan en una sola GPU
Desagregación de prefill-decode (PD) para desacoplar las fases de prefill y decodificación y ajustar sus compensaciones de forma independiente
Técnicas avanzadas de almacenamiento en caché KV para lograr un tiempo hasta el primer token (TTFT) ultrarrápido y una alta tasa de aciertos en caché

Decodificación especulativa

¿Y si una sola técnica pudiera mejorar por sí sola la latencia —especialmente la ITL— en un factor de dos o tres? Te presentamos la decodificación especulativa ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Habilidades de UX para la estrategia empresarial (Spanish Edition)

Publisher Resources

ISBN: 0642572383633

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Prácticas de implementación y optimización de LLM (Spanish Edition)

by Chi Wang, Peiheng Hu

Capítulo 7. Técnicasavanzadas de optimización de LLM

Decodificación especulativa

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.