Kubeflow pour l'apprentissage automatique
by Trevor Grant, Holden Karau, Boris Lublinsky, Richard Liu, Ilan Filonenko
Annexe C. Utilisation de la servitude de modèle dans les applications
Au chapitre 8, tu as appris différentes approches pour exposer les serveurs de modèles fournis par Kubeflow. Comme cela y est décrit, Kubeflow propose plusieurs façons de déployer des modèles entraînés et de fournir des interfaces REST et gRPC pour l'exécution de l'inférence des modèles. Cependant, il ne fournit pas de support pour l'utilisation de ces modèles dans des applications personnalisées. Nous présenterons ici quelques-unes des approches permettant de créer des applications en tirant parti des serveurs de modèles exposés par Kubeflow.
Lorsqu'il s'agit d'applications tirant parti de l'inférence de modèles, on peut les classer globalement en deux catégories : les applications en temps réel et les applications par lots. Dans le modèle des applications en temps réel/en flux, l'inférence se fait sur les données directement au fur et à mesure qu'elles sont produites ou reçues. Dans ce cas, il n'y a généralement qu'une seule requête disponible à la fois et elle peut être utilisée pour l'inférence au fur et à mesure qu'elle arrive. Dans les scénarios de traitement par lots, toutes les données sont disponibles à l'avance et peuvent être utilisées pour l'inférence de manière séquentielle ou en parallèle. Nous commencerons par le cas d'utilisation de la diffusion en continu, puis nous examinerons les implémentations possibles de la diffusion par lots.
Construire des applications de streaming en s'appuyant sur ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access