Capítulo 9. Optimización deLLM en la práctica
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La optimización es un objetivo en constante cambio: en diferentes entornos de, la «mejor» estrategia varía. Los recursos son limitados, así que no puedes probar todas las opciones por fuerza bruta. Para ayudarte a optimizar de manera eficiente para tu propio dominio, hemos elegido cuidadosamente algunos ejemplos reales para mostrar cómo los factores clave —configuración de hardware, elección de modelo, comportamiento de la memoria y la caché KV, servicio distribuido y patrones de tráfico— afectan el rendimiento del servicio, y cómo medir e interpretar esas diferencias. Esta comprensión te dará la intuición para sortear tus limitaciones y llegar a una configuración de servicio sólida.
En este capítulo práctico, pondremos en práctica todo lo que has aprendido en los capítulos anteriores. Utilizando el modelo de código abierto Qwen3-14B con vLLM como ejemplo, te guiaremos a través de un proceso práctico de optimización del servicio de LLM y te mostraremos cómo escalar el servicio tanto horizontal como verticalmente.
Comenzaremos con un plan de optimización conciso y lo ejecutaremos paso a paso: configurando el entorno, preparando la carga de trabajo de evaluación, ejecutando experimentos, implementando el modelo en configuraciones de una y varias GPU, analizando los resultados y aplicando las técnicas presentadas anteriormente. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access