book

IA generativa su Kubernetes (Italian Edition)

Name: IA generativa su Kubernetes (Italian Edition)
ISBN: 0642572344634

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 25m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione
Perché abbiamo scritto questo libroKubernetesIA generativaCome è strutturato questo libroA chi è rivolto questo libroCosa impareraiConvenzioni usate in questo libroO'Reilly Online LearningCome contattarciRingraziamenti
Introduzione
Le sfide dell'esecuzione dell'IA generativa su larga scalaKubernetes per i carichi di lavoro di IACapire le basi dell'LLMCome gli LLMs elaborano il testoTokenizzazione e incorporamentiLe due fasi dell'inferenzaPanoramicaInferenzaProntezza alla produzioneOttimizzazioneApplicazioni basate sull'intelligenza artificiale
I. Inferenza
1. Implementazione dei modelli
"Funziona sul mio computer"Server modellovLLMHugging Face Generazione di testo InferenzaAltri server di modelliDistribuzione manuale dei modelli su KubernetesController del server modelloKServeRay Serve e KubeRayCosa abbiamo imparato
2. Dati dei modelli
Formati di archiviazione dei dati del modelloFormati solo pesoFormati autonomiONNXSafetensorsGGUF e GGMLStato attuale e lacuneRegistro dei modelliHugging Face Model HubMLflow Model RegistryRegistro dei modelli KubeflowRegistro OCIAccesso ai dati dei modelli in KubernetesArchiviazione condivisa con PersistentVolumesImmagine OCI per l'archiviazione dei dati del modelloModelcarsMontaggi di volumi immagine OCICosa ho imparato
II. Preparazione alla produzione
3. Kubernetes e GPU
Rilevamento GPURilevamento delle funzionalità dei nodiRilevamento delle funzionalità GPUPlug-in per dispositivi GPU KubernetesPianificazione del carico di lavoro della GPUPianificazione basata su etichettePianificazione basata sulle risorseAllocazione dinamica delle risorseOperatore GPU NVIDIAConfigurazione dell'operatore con ClusterPolicyAllocazione sub-GPUInferenza multi-GPUParallelismo dei datiParallelismo del modelloInferenza a nodo singolo contro inferenza multinodoOttimizzazioni delle risorse GPULezioni apprese
4. Esecuzione in produzione
Ottimizzazione del modello e del runtimeValutazione del modello linguisticoCompressione del modello linguisticoBenchmark delle prestazioni del modelloOttimizzazione dei parametri runtime vLLMAutoscalingOttimizzazione del tempo di avvio di vLLMRouting compatibile con LLMDa API Gateway a AI GatewayEstensione di inferenza API gatewayServizio disaggregatoLezioni apprese
5. Osservabilità dei modelli
Stack e configurazione dell'osservabilitàLogMetricheTracciamentoMetriche del server dei modelliTempo al primo tokenTempo per token di output o latenza tra tokenThroughputLatenzaMetriche della coda delle richiesteMonitoraggio dell'utilizzo della GPUMetriche di qualitàAI responsabileSpiegabilitàEquitàSicurezza del modello: allucinazioni e guardrailCapire e individuare le allucinazioniLimiti di runtimeCosa abbiamo imparato
III. Messa a punto

6. Personalizzazione dei modelli
Introduzione alla creazione di LLMIngegneria dei prompt e del contestoQuando usare la personalizzazione del modelloOttimizzazione di un modelloMessa a puntoMessa a punto efficiente dei parametriAdattamento a basso rangoEsecuzione di lavori di ottimizzazione su KubernetesKubeflow TrainerAltri frameworkLezioni apprese
7. Ottimizzazione della pianificazione dei lavori
Ottimizzazione dello scheduler KubernetesScheduler Kubernetes di baseStrategia di resource bin packingPianificazione dinamica con DeschedulerPianificazione di gruppoPyTorch Rendezvous e Gang SchedulingConfronto tra soluzioni di pianificazione di gruppoPianificazione basata sulla topologiaConfronto tra soluzioni di pianificazione sensibili alla topologiaGestione delle quote e multitenancy: GPU as a ServiceConfronto tra soluzioni di gestione delle quote e multitenancyOttimizzazione della rete per l'addestramento distribuitoConfronto tra tecnologie di rete per la comunicazione GPUUso di interfacce di rete secondarie in KubernetesCollegamento tra HPC e Kubernetes: Slurm e SlinkyArchiviazione per la formazioneSicurezza dei lavori di formazioneLinee guida di sicurezza per RayLinee guida di sicurezza per PyTorchOsservabilità dei lavori di formazioneRaccolta di metriche per la formazione distribuitaRegistrazione dei log tra lavoratori distribuitiTracciamento delle operazioni di formazione distribuitaCosa abbiamo imparato
IV. App basate sull'intelligenza artificiale
8. Applicazioni basate sull'intelligenza artificiale
Modelli architetturaliTipi di carico di lavoro KubernetesApplicazioni di chatServizi di intelligenza artificiale backendGenerazione potenziata dal recuperoComponenti RAGAcquisizione dei documentiElaborazione delle query degli utentiRAG su KubernetesFlussi di lavoro agenticiFramework e runtime agenticiAPI di risposta di OpenAIAgenti su KubernetesSistemi multiagenteAgenti ambientaliCosa abbiamo imparato
9. Eseguire app agentiche in produzione
Il protocollo del contesto del modelloSicurezza MCPImpersonificazione degli agenti (passaggio dei token)Delega dell'account di servizioIdentità delegata tramite scambio di token OAuth2TLS reciproco con SPIFFE/SPIRE (Zero-Trust)Protocollo agente-agenteA2A completa MCPA2A in breveEsecuzione di A2A su KubernetesGestione dello stato degli agentiModelli di archiviazione dello statoScegliere tra archivi chiave-valore e databaseCheckpointing per agenti a esecuzione prolungataLezioni apprese
Postfazione
Cosa abbiamo trattatoConclusioni
Indice
Gli autori

Content preview from IA generativa su Kubernetes (Italian Edition)

Parte II. Preparazionealla produzione

Essere pronti per la produzione vuol dire che un modello può gestire il traffico continuo senza problemi. Questa parte esamina il lavoro operativo che segue la prima implementazione riuscita. Si apre spiegando come gli scheduler, i plug-in dei dispositivi e i limiti delle risorse influenzano il throughput e l'utilizzo delle GPU. Successivamente, gli elementi vengono collegati tra loro con politiche di scalabilità, strategie di implementazione e gestione dei guasti. Il capitolo conclusivo mostra come i log, le metriche e le tracce rivelano informazioni su latenza, accuratezza e costi. L'obiettivo è mantenere costanti le prestazioni e sotto controllo i costi man mano che la domanda cresce.

In dettaglio, i capitoli di questa parte trattano i seguenti aspetti:

Il capitolo 3, "Kubernetes e GPU", spiega come Kubernetes e le GPU possono funzionare bene insieme
Il capitolo 4, "Esecuzione in produzione", si concentra sull'ottimizzazione del modello/runtime per il carico di lavoro di produzione.
Il capitolo 5, "Osservabilità del modello", spiega gli aspetti specifici dell'osservabilità che rendono l'osservabilità del modello leggermente diversa rispetto all'osservabilità tradizionale del carico di lavoro su Kubernetes.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Virtualizing Oracle® Databases on vSphere®

Publisher Resources

ISBN: 0642572344634

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa su Kubernetes (Italian Edition)

by Roland Huß, Daniele Zonca

Parte II. Preparazionealla produzione

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.