Capítulo 8. Marcos de servicio deLLM
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los capítulos anteriores, hemos explorado los fundamentos del servicio de LLM: diseñode sistemas, implementación de servicios y técnicas prácticas de optimización. Este capítulo se centra en la capa base: los marcos de servicio que implementan y ejecutan la inferencia de modelos con diferentes técnicas de optimización bajo restricciones reales de producción. Hablaremos de cuatro marcos de servicio de código abierto muy utilizados con los que probablemente te encontrarás en la práctica: vLLM, TensorRT-LLM, SGLang y llama.cpp. Cada uno tiene una filosofía, un espacio de hardware y una tecnología probada en la práctica distintos, y cuenta con el respaldo de comunidades activas y un uso en producción cada vez mayor.
Dado que es el marco más ampliamente utilizado, analizaremos en profundidad vLLM: su arquitectura, el proceso de inicialización y ejecución de modelos, la programación a nivel de solicitud y de tokens, y la estrategia de optimización por capas. Comprender el funcionamiento interno de vLLM te dará una idea clara de cómo funcionan los marcos LLM en la práctica y te facilitará la evaluación de las ventajas y desventajas de otros marcos.
A continuación, cubriremos los marcos restantes con descripciones concisas y orientadas a la toma de decisiones, además de ejemplos breves. Cerraremos el capítulo con el método de evaluación ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access