Chapitre 11. Gérer, déployer et mettre à l'échelle les pipelines d'apprentissage automatique avec Apache Spark.
Dans le chapitre précédent, nous avons abordé la façon de construire des pipelines d'apprentissage automatique avec MLlib. Ce chapitre se concentrera sur la façon de gérer et de déployer les modèles que tu entraînes. À la fin de ce chapitre, tu seras capable d'utiliser MLflow pour suivre, reproduire et déployer tes modèles MLlib, de discuter des difficultés et des compromis entre les différents scénarios de déploiement de modèles, et d'architecturer des solutions d'apprentissage automatique évolutives. Mais avant d'aborder le déploiement des modèles, discutons d'abord des meilleures pratiques de gestion des modèles pour que tes modèles soient prêts à être déployés.
Gestion des modèles
Avant de déployer ton modèle d'apprentissage automatique, tu dois t'assurer que tu peux reproduire et suivre les performances du modèle. Pour nous, la reproductibilité de bout en bout des solutions d'apprentissage automatique signifie que nous devons pouvoir reproduire le code qui a généré un modèle, l'environnement utilisé pour l'entraînement, les données sur lesquelles il a été entraîné et le modèle lui-même. Tous les data scientists adorent te rappeler de définir tes graines de façon à pouvoir reproduire tes expériences (par exemple, pour la division formation/test, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access