Chapitre 8. Optimisation du déploiement des modèles
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Après avoir adapté ton modèle à ta tâche cible, tu voudras finalement déployer ton modèle afin de pouvoir commencer à interagir avec lui et éventuellement l'intégrer dans une application conçue pour le consommer.
Avant de déployer ton modèle génératif, tu dois comprendre les ressources dont il peut avoir besoin ainsi que l'expérience prévue pour interagir avec lui. Pour déterminer les ressources dont ton modèle aura besoin, tu devras identifier des exigences telles que la vitesse à laquelle ton modèle doit générer des compléments, le budget de calcul dont tu disposes et les compromis que tu es prêt à faire en ce qui concerne les performances du modèle pour pouvoir atteindre une vitesse d'inférence plus rapide et réduire potentiellement les coûts de stockage.
Dans ce chapitre, tu vas explorer différentes techniques pour effectuer des optimisations post-entraînement sur ton modèle, notamment l'élagage, la quantification et la distillation. D'autres considérations et réglages potentiels de tes configurations de déploiement devront également être effectués après le déploiement, comme la sélection des ressources informatiques optimales pour équilibrer les coûts et les performances.
Optimisation des modèles pour l'inférence
La taille des modèles d'IA générative présente souvent un défi pour le déploiement ...