Chapitre 8. PyTorch en production
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Maintenant que tu as appris à utiliser PyTorch pour classer des images, du texte et des sons, la prochaine étape consiste à examiner comment déployer des applications PyTorch en production. Dans ce chapitre, nous créons des applications qui exécutent l'inférence sur les modèles PyTorch via HTTP et gRPC. Nous emballons ensuite ces applications dans des conteneurs Docker et les déployons sur un cluster Kubernetes fonctionnant sur Google Cloud.
Dans la seconde moitié, nous nous penchons sur TorchScript, une nouvelle technologie introduite dans PyTorch 1.0 qui nous permet d'utiliser le traçage juste à temps (JIT) pour produire des modèles optimisés qui peuvent être exécutés à partir de C++. Nous verrons également brièvement comment compresser les modèles à l'aide de la quantification. Tout d'abord, voyons comment servir les modèles.
Modèle Servir
Nous avons passé les six derniers chapitres à construire des modèles dans PyTorch, mais la construction d'un modèle n'est qu'une partie de la construction d'une application de Deep Learning. Après tout, un modèle peut avoir une précision étonnante (ou une autre métrique pertinente), mais s'il ne fait jamais de prédictions, vaut-il quelque chose ? Ce que nous voulons, c'est un moyen facile d'empaqueter nos modèles afin qu'ils puissent répondre à des demandes (sur le Web ou par ...