Chapitre 6. Accélération et optimisation de PyTorch
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Dans les chapitres précédents, tu as appris à utiliser les capacités intégrées de PyTorch et à les étendre en créant tes propres composants personnalisés pour le Deep Learning. Ce faisant, tu peux concevoir rapidement de nouveaux modèles et algorithmes pour les entraîner.
Cependant, lorsqu'il s'agit de très grands ensembles de données ou de modèles plus complexes, l'entraînement de tes modèles sur un seul CPU ou GPU peut prendre énormément de temps - cela peut prendre des jours, voire des semaines, pour obtenir des résultats préliminaires. Des temps de formation plus longs peuvent devenir frustrants, en particulier lorsque tu veux mener de nombreuses expériences en utilisant différentes configurations d'hyperparamètres.
Dans ce chapitre, nous allons explorer des techniques de pointe pour accélérer et optimiser le développement de tes modèles avec PyTorch. Tout d'abord, nous verrons comment utiliser des unités de traitement tensoriel (TPU) au lieu de dispositifs GPU et nous examinerons les cas dans lesquels l'utilisation des TPU peut améliorer les performances. Ensuite, je te montrerai comment utiliser les capacités intégrées de PyTorch pour le traitement parallèle et l'entraînement distribué. Tu disposeras ainsi d'une référence rapide pour la formation de modèles sur plusieurs GPU et plusieurs machines, ...