Capítulo 8. Optimizaciones de la Implementación de Modelos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una vez que hayas adaptado tu modelo a tu tarea de destino, querrás finalmente implementar tu modelo para poder empezar a interactuar con él, así como integrarlo potencialmente en una aplicación diseñada para consumirlo.

Antes de desplegar tu modelo generativo, tienes que comprender los recursos que puede necesitar tu modelo, así como la experiencia prevista para interactuar con él. Considerar los recursos que necesitará tu modelo incluirá identificar requisitos como la rapidez con la que necesitas que tu modelo genere terminaciones, de qué presupuesto informático dispones y qué compensaciones estás dispuesto a hacer en cuanto al rendimiento del modelo para poder conseguir una velocidad de inferencia más rápida y reducir potencialmente los costes de almacenamiento.

En este capítulo, explorarás varias técnicas para realizar optimizaciones post-entrenamiento en tu modelo, incluyendo la poda, la cuantización y la destilación. También tendrás que tener en cuenta otras consideraciones y posibles ajustes de las configuraciones de implementación, como la selección de los recursos informáticos óptimos para equilibrar el coste y el rendimiento.

Optimizaciones del modelo para la inferencia

El tamaño de los modelos de IA generativa suele suponer un reto para su implementación en términos de requisitos de computación, ...

Get IA Generativa en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.