book

Modelli di progettazione dell'IA generativa

by Valliappa Lakshmanan, Hannes Hapke

October 2025

Intermediate to advanced

508 pages

12h 52m

Italian

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Per chi è questo libro?Convenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciRingraziamenti
Modelli di progettazione GenAICostruire sui modelli fondamentaliprompt e contestoUsare l'API del Model ProviderUsare un framework LLM-agnosticoEseguire il modello a livello localeCome vengono creati i modelli fondazionaliIl panorama dei modelli fondazionaliIA agenzialeL'autonomiaCaratteristiche degli agentiControllo a grana fineLogitTemperaturaCampionamento Top-KCampionamento del nucleoRicerca a raggieraApprendimento in contestoApprendimento a zero colpiApprendimento a pochi colpiPost-formazioneMetodi di post-formazioneMessa a punto di un modello di frontieraMessa a punto di un modello a peso apertoConsiderazioniL'organizzazione del resto del libro
Modello 1: Mascheramento dei logitiProblemaSoluzioneEsempiConsiderazioniRiferimentiModello 2: GrammaticaProblemaSoluzioneEsempiConsiderazioniRiferimentiModello 3: Trasferimento di stileProblemaSoluzioneConsiderazioniRiferimentiSchema 4: Neutralizzazione inversaProblemaSoluzioneEsempio 1: Generazione di un testo legaleEsempio 2: Stile personaleConsiderazioniRiferimentiSchema 5: Ottimizzazione del contenutoProblemaSoluzioneEsempioConsiderazioniRiferimentiRiassunto
Modello 6: RAG di baseProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 7: Indicizzazione semanticaProblemaSoluzioneEsempioConsiderazioniRiferimentiModello 8: Indicizzazione su scalaProblemaSoluzioneEsempioConsiderazioniRiferimentiRiassunto
Schema 9: Recupero consapevole dell'indiceProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 10: Postelaborazione dei nodiProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 11: Generazione affidabileProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 12: Ricerca profondaProblema SoluzioneEsempioConsiderazioniRiferimentiRiassunto
I limiti del ragionamento LLMCapacità conosciuteCapacità sconosciuteSchema 13: Catena di pensieriProblemaSoluzioneEsempiConsiderazioniRiferimentiSchema 14: Albero dei pensieri (ToT)ProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 15: Sintonizzazione dell'adattatoreProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 16: Evol-InstructProblemaSoluzioneEsempioConsiderazioniRiferimentiRiassunto
Schema 17: LLM come giudiceProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 18: RiflessioneProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 19: Iniezione di dipendenzaProblemaEsempioSoluzioneConsiderazioniRiferimentiSchema 20: Ottimizzazione del promptProblemaSoluzioneEsempioConsiderazioniRiferimentiRiassunto
Schema 21: Chiamata di strumentiProblemaSoluzioneEsempioStrumento meteoStrumento di geocodificaServer MCPClient MCPConsiderazioniMigliorare l'affidabilitàLimitazioni di MCPIniezione di promptRiferimentiSchema 22: Esecuzione del codiceProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 23: Collaborazione multiagenteProblemaSoluzioneEsempioConsiderazioniRiferimentiRiepilogo
Schema 24: Modello di linguaggio piccoloProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 25: Caching dei promptProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 26: Ottimizzazione dell'inferenzaProblemaSoluzioneEsempioRiferimentiSchema 27: Test di degradoProblemaSoluzioneStrumenti di monitoraggio delle prestazioniRiferimentiModello 28: Memoria a lungo termineProblemaSoluzioneEsempioConsiderazioniRiferimentiRiassunto
Schema 29: Generazione di modelliProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 30: Riformattazione assemblataProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 31: AutoverificaProblemaSoluzioneEsempioConsiderazioniRiferimentiSchema 32: GuardrailProblemaSoluzioneEsempioConsiderazioniRiferimentiSintesi

Flusso di lavoro agenzialeEsecuzione dell'applicazioneCosa fa l'applicazioneArchitettura del sistemaDistribuzioneSommario

Content preview from Modelli di progettazione dell'IA generativa

Chapter 8. Addressing Constraints

Deploying LLMs in production environments presents a unique set of challenges that go far beyond simply getting a model to work. While LLMs offer remarkable capabilities, they also demand substantial computational resources, introduce latency concerns, and can quickly become cost prohibitive at scale. The gap between a proof-of-concept that works on a single query and a production system serving thousands of users is often overlooked.

In this chapter, we provide patterns that address concerns you’re likely to face when deploying LLMs in production systems. Whether you’re facing hardware limitations, budget constraints, or strict latency requirements, the patterns presented here offer proven strategies for optimizing your LLM deployment.

We’ll explore five key patterns that tackle different aspects of production constraints. The section on the Small Language Model (Pattern 24) shows you how to reduce computational overhead through model distillation and quantization techniques. The section on Prompt Caching (Pattern 25) demonstrates how to eliminate redundant processing and reduce both costs and latency. The section on Optimizing Inference (Pattern 26) covers advanced techniques like continuous batching and speculative decoding to maximize hardware utilization. The section on Degradation Testing (Pattern 27) provides the metrics you need to validate that your LLM-based application is performing well, and it also covers actions that you can take ...