Capítulo 6. Técnicasesenciales de optimización de LLM
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los capítulos anteriores, demostramos la importancia y los retos que supone optimizar los LLMs para su implementación. En los dos próximos capítulos, profundizaremos una por una en cada una de las técnicas críticas de optimización de LLMs para que cuentes con los conocimientos necesarios para decidir cuándo, cómo y por qué utilizarlas según tus necesidades de implementación.
En este capítulo en concreto, nos centraremos en las técnicas esenciales que te ayudarán a comprender la mayoría de los conceptos de optimización y a alcanzar muchos de tus objetivos de optimización. Dejaremos las técnicas más avanzadas y las tendencias del sector para el capítulo 7.
En este capítulo, hablaremos de cómo utilizar:
-
El agrupamiento y la programación de solicitudes para lograr un mejor paralelismo y una mayor utilización de la GPU
-
La optimización de la atención para lograr una mayor eficiencia computacional, reducir los recursos computacionales necesarios y mejorar la gestión de la memoria
-
Compresión de modelos para lograr modelos más pequeños, menos movimiento de memoria y/o menos computación
-
El almacenamiento en caché de prefijos para almacenar y reutilizar prompts anteriores, incluyendo cómo hacerlo de manera eficiente y obtener una alta tasa de aciertos en la caché
Optimizaciones a nivel de agrupación y programación ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access