Overview
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los modelos de lenguaje a gran escala (LLMs) son los motores de razonamiento de la IA moderna. Hoy hemos llegado a un punto de inflexión crucial: mientras el mundo se apresura a implementar la IA a gran escala, la inferencia de modelos ha pasado a ocupar un lugar central en la pila tecnológica. Bienvenidos a la era de la inferencia.
Sin embargo, sin una optimización adecuada, los LLMs pueden resultar caros y lentos de implementar. Hands-On LLM Serving and Optimization es una guía completa sobre las complejidades de la implementación y optimización de LLMs a gran escala.
En este libro práctico y enfocado en la ingeniería, los autores Chi Wang y Peiheng Hu combinan ejemplos prácticos, código y estrategias para construir fábricas de tokens de IA robustas, de alto rendimiento y rentables. Ya sea que estés construyendo la infraestructura de inferencia de LLM o las aplicaciones que la consumen, un profundo conocimiento del servicio de LLM te convertirá en un ingeniero más eficaz y preparado para el futuro, a medida que la IA transforma la forma en que trabajamos y construimos.
- Aprende los fundamentos del servicio de modelos con conceptos básicos, paradigmas de diseño y buenas prácticas de la industria
- Comprende los retos comunes del alojamiento de LLMs a gran escala
- Equilibra la latencia y el rendimiento para satisfacer las demandas de las aplicaciones de IA y los requisitos empresariales
- Aloja LLMs de manera rentable con técnicas prácticas respaldadas por código
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access