book

Prácticas de implementación y optimización de LLM (Spanish Edition)

Name: Prácticas de implementación y optimización de LLM (Spanish Edition)
ISBN: 0642572383633

by Chi Wang, Peiheng Hu

May 2026

Intermediate

374 pages

12h 12m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Por qué el servicio y la optimización de LLM?Qué pretende este libroA quién va dirigido este libroQué no es este libroCómo está organizado este libroCómo usar este libroLo que vas a necesitarConvenciones utilizadas en este libroUso de los ejemplos de códigoO’Reilly Online LearningCómo contactarnosAgradecimientos
1. Introducción al servicio y la optimización de modelos
Anatomía de un modeloArquitectura del modeloDatos del modeloCódigo de ejecución del modeloCiclo de vida del modelo: del entrenamiento al servicio¿Qué es la implementación de modelos?¿Por qué estudiar el servicio de modelos?¿Por qué optimizar el servicio de modelos (especialmente para LLMs)?Ejemplo: Uso de un marco de implementación de modelos (vLLM) para mejorar el rendimiento de los LLMParadigmas de servicio de modelosServicio en el dispositivo (perímetro)Servicio para un solo modeloServicio multimodeloPlataformas de servicio de modelosResumen
2. Servicio de modelos de lenguaje grandes
Dentro de la mente de un TransformerEvolución de los LLMLa naturaleza autorregresiva de los transformadoresArquitectura de transformadores solo con decodificadorCaptura el contexto de los tokens calculando la atenciónEjecución de la generación de LLM: una guía paso a pasoEjecuta el modelo QwenPredicción del modelo, línea por líneaHabilita la caché KV para mejorar el rendimientoLas fases de prellenado y decodificaciónEjecuta el LLM con un marco de servicio Sirve el LLM (Qwen) con vLLMComparación de rendimiento: vLLM frente a Hugging Face TransformersConceptos básicos del servicio de streaming de LLMConceptos básicos sobre el servicio por lotes de LLMResumen
3. Diseño de sistemas de servicio de modelos: un análisis en profundidad
Crea un servicio de implementación de LLM en línea desde ceroObjetivos de diseñoArquitectura del servicioImplementar el manejo de solicitudes de generación únicaProcesamiento por lotesTransmisión con procesamiento por lotesServicio por lotes con vLLMUn diseño general para el servicio de LLM de un solo modeloRequisitos para el servicio de un solo modeloDiseño generalCrea un servicio de implementación de múltiples modelos desde ceroObjetivos de diseñoArquitectura del servicioImplementación principalUso de NVIDIA Triton como servidor de modelosVentajas y desventajas de los diseños de servicio de modelos múltiplesDesafíosUn diseño multimodelo con costos optimizadosUn diseño multimodelo optimizado para la latenciaResumen
4. Buenas prácticas para el servicio de modelos
Servicio de modelos en un mundo agencialDefinición de agentesUn agente de conocimiento de ejemploEl diseño del agenteEl flujo de trabajo interno del agenteAutonomía del agenteGeneración aumentada por recuperación (RAG)Generación aumentada por caché (CAG)Cómo usan los agentes el servicio de modelosServicio de LLM en sistemas empresariales: una visión generalCapa de API públicaCapa de gestión de recursosCapa de selección y orquestación de modelosCapa de servicio distribuidoCapa de inferencia centralCapa de optimización de modelosCapa de modelosDesarrollo con una pila de código abiertoImplementación de la API públicaImplementación de la selección de modelosImplementación de un punto final de servicio de modelosDesarrollar con un proveedor de nubeOpción 1: Servicio de modelos base totalmente gestionadoOpción 2: Implementación del modelo base con un solo clicOpción 3: Trae tu propio modeloOpción 4: Trae tu propio códigoOpción 5: Trae tu propia imagen de servicioOpción 6: Crea tu propia infraestructura de servicioComparación de las opciones¿Desarrollar o comprar? Entender las estrategiasPor qué ayuda saber cómo construir, incluso si no vas a construirNuestra estrategia de selecciónMedir el rendimiento en el servicio de LLMMétricas de latenciaMétricas de rendimientoBuenas prácticas para la medición del rendimientoResumen
5. Desafíos al implementar LLMs
Por qué es importante optimizar el servicio de LLMExperiencia del clienteEficiencia de costosEscalabilidad, manejo de picos de carga y viabilidadEl papel de los chips aceleradores en el servicio de LLMCómo leer las especificaciones de las GPUComparación de las especificaciones de las GPU más popularesCuellos de botella en la carga de modelos LLMEl proceso de carga del modeloEstimación del tamaño del modeloEstimación del tamaño de la caché KVCuellos de botella en la ejecución de modelos LLMLímites del ancho de banda de computación y memoria de la GPUIntensidad aritmética en las multiplicaciones matricialesAplicación del análisis de intensidad aritmética a las fases de precarga y decodificación de los LLMOtros aceleradores de IA y tendenciasResumen
6. Técnicas esenciales de optimización de LLM
Optimizaciones a nivel de agrupación de solicitudes y programación¿Por qué necesitamos el procesamiento por lotes en el servicio en tiempo real?Agrupación dinámica en la inferencia en líneaAgrupación continua para la inferencia en línea de LLMAgrupación continua con prellenado por fragmentosEscalado de la atención y optimización del kernelMecanismos de atención escalablesFusión de kernels y kernels de atención personalizadosCompresión de modelosCuantificaciónDestilaciónPodaAlmacenamiento en caché de prefijosRadixAttentionCasos de usoBuenas prácticasEscalado de la caché de prefijosResumen
7. Técnicas avanzadas de optimización de LLM
Decodificación especulativaPasos detalladosAjuste y usoPráctica de decodificación especulativaInferencia con múltiples GPU y múltiples nodosParalelismo de datosParalelismo tensorial y paralelismo en pipelineParalelismo expertoDesagregación de precarga-decodificaciónArquitectura generalTransferencia de caché KVCuándo utilizarloAlmacenamiento en caché KV avanzadoServicio de contexto largoCálculos de costo y latenciaLLMs de autoalojamientoPráctica con LMCacheResumen
8. Marcos de implementación de LLM
Por qué necesitamos marcos especializados para el servicio de LLMvLLMArquitectura de vLLMFlujo de trabajo de inicialización del modelo (con trabajador multiproceso)Flujo de trabajo de ejecución de solicitudes de generaciónAnálisis en profundidad del programadorEstrategia de optimización por capas de vLLMTensorRT-LLMSGLangLlama.cppElegir el marco adecuadoResumen
9. La optimización de los LLM en la práctica
Plan de optimización del servicio LLMOptimiza el servicio de Qwen3-14B con vLLMPaso 1: Examina el hardware de la GPUPaso 2: Generar tráfico de referenciaPaso 3: Definir métricas de evaluaciónPaso 4: Configurar el servidor de servicio del modeloPaso 5: Comparar el modelo Qwen3 con vLLMPaso 6: Evalúa el modelo Qwen3 cuantificado con vLLMPaso 7: Aplicar técnicas de optimización adicionalesPaso 8: Comparar el modelo Qwen3 con el servicio distribuidoCompensaciones comunes en la optimizaciónResumen

10. Avances en el servicio de LLM
Almacenamiento en caché semánticoEstrategias de perfilado del rendimientoServicio multimodalProcesamiento de entradas multimodalesImplicaciones arquitectónicas y del sistemaIA en el perímetro: impulsores y facilitadoresHardware especializado de bajo consumoCompresión y optimización del modeloCálculo heterogéneoProgramación con consideración térmicaComputación híbrida entre el perímetro y la nubeServicio Multi-LoRAServicio de modelos en el aprendizaje por refuerzoServicio de LLM en RLDeterminismo en el servicio de RLResumen
Índice
Acerca de los autores

Overview

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los modelos de lenguaje a gran escala (LLMs) son los motores de razonamiento de la IA moderna. Hoy hemos llegado a un punto de inflexión crucial: mientras el mundo se apresura a implementar la IA a gran escala, la inferencia de modelos ha pasado a ocupar un lugar central en la pila tecnológica. Bienvenidos a la era de la inferencia.

Sin embargo, sin una optimización adecuada, los LLMs pueden resultar caros y lentos de implementar. Hands-On LLM Serving and Optimization es una guía completa sobre las complejidades de la implementación y optimización de LLMs a gran escala.

En este libro práctico y enfocado en la ingeniería, los autores Chi Wang y Peiheng Hu combinan ejemplos prácticos, código y estrategias para construir fábricas de tokens de IA robustas, de alto rendimiento y rentables. Ya sea que estés construyendo la infraestructura de inferencia de LLM o las aplicaciones que la consumen, un profundo conocimiento del servicio de LLM te convertirá en un ingeniero más eficaz y preparado para el futuro, a medida que la IA transforma la forma en que trabajamos y construimos.

Aprende los fundamentos del servicio de modelos con conceptos básicos, paradigmas de diseño y buenas prácticas de la industria
Comprende los retos comunes del alojamiento de LLMs a gran escala
Equilibra la latencia y el rendimiento para satisfacer las demandas de las aplicaciones de IA y los requisitos empresariales
Aloja LLMs de manera rentable con técnicas prácticas respaldadas por código

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Habilidades de UX para la estrategia empresarial (Spanish Edition)

Publisher Resources

ISBN: 0642572383633

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills