Parte II. Preparazionealla produzione
Essere pronti per la produzione vuol dire che un modello può gestire il traffico continuo senza problemi. Questa parte esamina il lavoro operativo che segue la prima implementazione riuscita. Si apre spiegando come gli scheduler, i plug-in dei dispositivi e i limiti delle risorse influenzano il throughput e l'utilizzo delle GPU. Successivamente, gli elementi vengono collegati tra loro con politiche di scalabilità, strategie di implementazione e gestione dei guasti. Il capitolo conclusivo mostra come i log, le metriche e le tracce rivelano informazioni su latenza, accuratezza e costi. L'obiettivo è mantenere costanti le prestazioni e sotto controllo i costi man mano che la domanda cresce.
In dettaglio, i capitoli di questa parte trattano i seguenti aspetti:
-
Il capitolo 3, "Kubernetes e GPU", spiega come Kubernetes e le GPU possono funzionare bene insieme
-
Il capitolo 4, "Esecuzione in produzione", si concentra sull'ottimizzazione del modello/runtime per il carico di lavoro di produzione.
-
Il capitolo 5, "Osservabilità del modello", spiega gli aspetti specifici dell'osservabilità che rendono l'osservabilità del modello leggermente diversa rispetto all'osservabilità tradizionale del carico di lavoro su Kubernetes.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access