Chapitre 4. Optimisation de la mémoire et du calcul
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Au chapitre 3, tu as exploré les meilleures pratiques pour expérimenter et sélectionner un modèle de base pour ton cas d'utilisation. L'étape suivante consiste généralement à personnaliser le modèle en fonction de tes besoins spécifiques et de tes ensembles de données. Cela peut inclure l'adaptation du modèle à tes ensembles de données à l'aide d'une technique appelée réglage fin, que tu exploreras plus en détail au chapitre 5. Lors de l'entraînement ou du réglage fin de modèles de fondations volumineux, tu es souvent confronté à des problèmes de calcul - en particulier, comment faire tenir des modèles volumineux dans la mémoire du GPU.
Dans ce chapitre, tu vas explorer des techniques qui permettent de surmonter les limitations de mémoire. Tu apprendras comment appliquer la quantification et l'apprentissage distribué pour minimiser la RAM requise du GPU, et comment mettre à l'échelle l'apprentissage du modèle horizontalement sur plusieurs GPU pour les modèles plus importants.
Par exemple, le modèle Falcon original 40 milliards de paramètres a été formé sur une grappe de 48 ml.p4d.24xlarge instances Amazon SageMaker composées de 384 GPU NVIDIA A100, 15 To de RAM GPU et 55 To de RAM CPU. Une version plus récente de Falcon a été entraînée sur une grappe de 392 ml.p4d.24xlarge instances SageMaker composées ...