book

IA generativa su Kubernetes (Italian Edition)

Name: IA generativa su Kubernetes (Italian Edition)
ISBN: 0642572344634

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 25m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione
Perché abbiamo scritto questo libroKubernetesIA generativaCome è strutturato questo libroA chi è rivolto questo libroCosa impareraiConvenzioni usate in questo libroO'Reilly Online LearningCome contattarciRingraziamenti
Introduzione
Le sfide dell'esecuzione dell'IA generativa su larga scalaKubernetes per i carichi di lavoro di IACapire le basi dell'LLMCome gli LLMs elaborano il testoTokenizzazione e incorporamentiLe due fasi dell'inferenzaPanoramicaInferenzaProntezza alla produzioneOttimizzazioneApplicazioni basate sull'intelligenza artificiale
I. Inferenza
1. Implementazione dei modelli
"Funziona sul mio computer"Server modellovLLMHugging Face Generazione di testo InferenzaAltri server di modelliDistribuzione manuale dei modelli su KubernetesController del server modelloKServeRay Serve e KubeRayCosa abbiamo imparato
2. Dati dei modelli
Formati di archiviazione dei dati del modelloFormati solo pesoFormati autonomiONNXSafetensorsGGUF e GGMLStato attuale e lacuneRegistro dei modelliHugging Face Model HubMLflow Model RegistryRegistro dei modelli KubeflowRegistro OCIAccesso ai dati dei modelli in KubernetesArchiviazione condivisa con PersistentVolumesImmagine OCI per l'archiviazione dei dati del modelloModelcarsMontaggi di volumi immagine OCICosa ho imparato
II. Preparazione alla produzione
3. Kubernetes e GPU
Rilevamento GPURilevamento delle funzionalità dei nodiRilevamento delle funzionalità GPUPlug-in per dispositivi GPU KubernetesPianificazione del carico di lavoro della GPUPianificazione basata su etichettePianificazione basata sulle risorseAllocazione dinamica delle risorseOperatore GPU NVIDIAConfigurazione dell'operatore con ClusterPolicyAllocazione sub-GPUInferenza multi-GPUParallelismo dei datiParallelismo del modelloInferenza a nodo singolo contro inferenza multinodoOttimizzazioni delle risorse GPULezioni apprese
4. Esecuzione in produzione
Ottimizzazione del modello e del runtimeValutazione del modello linguisticoCompressione del modello linguisticoBenchmark delle prestazioni del modelloOttimizzazione dei parametri runtime vLLMAutoscalingOttimizzazione del tempo di avvio di vLLMRouting compatibile con LLMDa API Gateway a AI GatewayEstensione di inferenza API gatewayServizio disaggregatoLezioni apprese
5. Osservabilità dei modelli
Stack e configurazione dell'osservabilitàLogMetricheTracciamentoMetriche del server dei modelliTempo al primo tokenTempo per token di output o latenza tra tokenThroughputLatenzaMetriche della coda delle richiesteMonitoraggio dell'utilizzo della GPUMetriche di qualitàAI responsabileSpiegabilitàEquitàSicurezza del modello: allucinazioni e guardrailCapire e individuare le allucinazioniLimiti di runtimeCosa abbiamo imparato
III. Messa a punto

6. Personalizzazione dei modelli
Introduzione alla creazione di LLMIngegneria dei prompt e del contestoQuando usare la personalizzazione del modelloOttimizzazione di un modelloMessa a puntoMessa a punto efficiente dei parametriAdattamento a basso rangoEsecuzione di lavori di ottimizzazione su KubernetesKubeflow TrainerAltri frameworkLezioni apprese
7. Ottimizzazione della pianificazione dei lavori
Ottimizzazione dello scheduler KubernetesScheduler Kubernetes di baseStrategia di resource bin packingPianificazione dinamica con DeschedulerPianificazione di gruppoPyTorch Rendezvous e Gang SchedulingConfronto tra soluzioni di pianificazione di gruppoPianificazione basata sulla topologiaConfronto tra soluzioni di pianificazione sensibili alla topologiaGestione delle quote e multitenancy: GPU as a ServiceConfronto tra soluzioni di gestione delle quote e multitenancyOttimizzazione della rete per l'addestramento distribuitoConfronto tra tecnologie di rete per la comunicazione GPUUso di interfacce di rete secondarie in KubernetesCollegamento tra HPC e Kubernetes: Slurm e SlinkyArchiviazione per la formazioneSicurezza dei lavori di formazioneLinee guida di sicurezza per RayLinee guida di sicurezza per PyTorchOsservabilità dei lavori di formazioneRaccolta di metriche per la formazione distribuitaRegistrazione dei log tra lavoratori distribuitiTracciamento delle operazioni di formazione distribuitaCosa abbiamo imparato
IV. App basate sull'intelligenza artificiale
8. Applicazioni basate sull'intelligenza artificiale
Modelli architetturaliTipi di carico di lavoro KubernetesApplicazioni di chatServizi di intelligenza artificiale backendGenerazione potenziata dal recuperoComponenti RAGAcquisizione dei documentiElaborazione delle query degli utentiRAG su KubernetesFlussi di lavoro agenticiFramework e runtime agenticiAPI di risposta di OpenAIAgenti su KubernetesSistemi multiagenteAgenti ambientaliCosa abbiamo imparato
9. Eseguire app agentiche in produzione
Il protocollo del contesto del modelloSicurezza MCPImpersonificazione degli agenti (passaggio dei token)Delega dell'account di servizioIdentità delegata tramite scambio di token OAuth2TLS reciproco con SPIFFE/SPIRE (Zero-Trust)Protocollo agente-agenteA2A completa MCPA2A in breveEsecuzione di A2A su KubernetesGestione dello stato degli agentiModelli di archiviazione dello statoScegliere tra archivi chiave-valore e databaseCheckpointing per agenti a esecuzione prolungataLezioni apprese
Postfazione
Cosa abbiamo trattatoConclusioni
Indice
Gli autori

Content preview from IA generativa su Kubernetes (Italian Edition)

Capitolo 2. Datidel modello

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Una delle sfide più grandi quando si gestiscono i modelli di linguaggio grande (LLMs) su Kubernetes è gestire la quantità enorme di dati del modello. I modelli LLM possono avere dimensioni che vanno da pochi gigabyte a quasi un terabyte, e portare questi dati in modo efficiente in un cluster dove i runtime possono accedervi richiede un'attenta valutazione.

La parte principale di questi modelli è costituita dai parametri del modello e può essere estremamente grande. La tabella 2-1 elenca il numero di parametri e le dimensioni di alcuni dei modelli più importanti disponibili che è possibile eseguire autonomamente. Ce ne sono molti altri, ma da questa selezione è già possibile notare un'ampia gamma di variazioni. Si va da modelli di grandi dimensioni, probabilmente poco pratici per un utilizzo on-demand, a modelli più leggeri che possono essere eseguiti sul proprio cluster e facilmente scaricati quando necessario.

Tabella 2-1. Modelliopen source e loro dimensioni
Nome	Fornitore	Parametri	Dimensione
Llama 4 Maverick	Meta	400 miliardi (MoE, 17 miliardi attivi)	~800 GB
DeepSeek-V3	DeepSeek	671 miliardi (MoE, 37 miliardi attivi)	~700 GB
Llama 3.1 405 miliardi	Meta	405 miliardi	~750 GB
Qwen3-235B	Alibaba	235 miliardi (MoE, 22 miliardi attivi)	~118 GB
Mixtral 8x22 miliardi	Mistral	141 miliardi (MoE, 39 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Virtualizing Oracle® Databases on vSphere®

Publisher Resources

ISBN: 0642572344634

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa su Kubernetes (Italian Edition)

by Roland Huß, Daniele Zonca

Capitolo 2. Datidel modello

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.