book

RAG pratico per la produzione (Italian Edition)

Name: RAG pratico per la produzione (Italian Edition)
ISBN: 0642572397630

by Ofer Mendelevitch, Forrest Sheng Bao

May 2026

Intermediate

358 pages

11h 21m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione di Sharon Zhou
Prefazione di Jim Dowling
Prefazione
Di cosa tratta questo libroA chi è rivolto questo libroA chi non è rivolto questo libroUtilizzo degli esempi di codicePrerequisitiCome orientarsi in questo libroConvenzioni utilizzate in questo libroO’Reilly Online LearningCome contattarciRingraziamenti
1. Introduzione alla generazione potenziata dal recupero (RAG)
Come funziona RAG?Il progetto di uno stack RAGIl flusso di acquisizioneIl flusso delle queryEsempio: RAG con LangChainRAG rispetto ad altri approcciRAG contro "Chat with PDF"RAG contro il fine-tuningVantaggi principali del RAGRAG è scalabile ed efficienteRAG aiuta a ridurre le allucinazioniRAG garantisce la spiegabilitàAggiunta e rimozione quasi istantanea di conoscenzeControlli di accesso e sicurezzaCasi d'uso del RAGAssistenti virtuali e chatbot basati sull'intelligenza artificialeGestione delle conoscenze aziendali e ricerca internaCreazione automatizzata di contenuti e sintesi di documentiCreazione di annunci personalizzati accattivanti ed efficaciSistemi di domande e risposteApplicazioni mediche e sanitarieRicerca in ambito legale e di conformitàRAG avanzatoRAG agenzialeRAG multimodaleRAG con grafici di conoscenzaConclusione
2. Lo stack RAG di base
Flussi dello stack RAGIl flusso di acquisizioneIl flusso di queryAnalisi dei documentiEstrazione di testo da vari formati di file Analisi dei documenti con modelli visione-linguaggioEsempio di codice: analisi dei fileSuddivisione del testo in blocchiStrategie di chunkingEsempio di codice: chunking in PythonModelli di embeddingCos'è l'embedding?Criteri di selezione per i modelli di embeddingConsigli pratici e considerazioniEsempio di codice: Generazione di embedding con Sentence TransformersDatabase vettoriali e ricerca vettorialeComprendere la ricerca di similarità basata su vettoriAlgoritmi di approssimazione del vicino più prossimoDatabase vettorialiParametri da considerare quando si utilizza la ricerca vettorialeEsempio di codice: memorizzazione e recupero di vettori utilizzando pgvectorLLMs generativeLLMsIngegneria dei prompt RAGValutazione degli LLMs e dei modelli di promptEsempio di codice: Utilizzo di Anthropic Claude per generare risposte in RAGConclusione
3. Scalare il tuo stack RAG
RAG su larga scalaVolume e complessità dei documentiAggiornamento dell'indiceGestione e ottimizzazione dei costiAcquisizione avanzata dei datiGestione di un grande volume di documentiGestione della qualità dei dati incoerenteGestione di documenti di grandi dimensioniEsempio: Suddivisione di un file PDF di grandi dimensioniGestione degli aggiornamenti e del refresh dei documentiRecupero avanzatoIl flusso di recupero in due fasiRicerca ibridaRiorganizzazione dei risultatiImplementazione di misure di sicurezzaMisure di sicurezza per l'IAPrevenzione degli attacchi di iniezione di promptControllo delle allucinazioni in RAGDefinizione delle allucinazioni in RAGAllucinazioni LLM contro allucinazioni RAGRilevamento delle allucinazioniCorrezione delle allucinazioniCreare un'ottima esperienza utente con RAGConsiderazioni sull'esperienza utente di RAGInterfacce utente multimodaliStrumenti e implementazioni di riferimentoConclusione
4. Implementazione del RAG in produzione
Sfide con il RAG in produzioneQualità della risposta e riduzione delle allucinazioniElevata latenzaSicurezza dei dati e privacyCaos dei fornitori e problemi di integrazioneTeam e competenzeCosto totale di proprietàValutazione RAGUn'architettura di produzione di riferimentoTransizione di successo dal proof of concept alla produzioneRiassumi ciò che hai imparato nella prova di concettoDefinisci obiettivi e requisitiGarantire il successo continuo del RAGConclusione
5. La piattaforma RAG
RAG fai da te contro piattaforma RAGFunzionalità principali di RAGFonti dei datiEspansione del RAG e governance centralizzataCosti e manutenzioneOpzioni di implementazioneEsempio di piattaforma RAG: VectaraPer iniziareInserimento dei dati in VectaraEsecuzione delle queryCorrezione delle allucinazioniAltri endpoint dell'API di amministrazione RAGConclusione
6. Valutazione della tua applicazione RAG
In che modo il RAG fallisce?Errori di recuperoErrori di generazioneErrori dovuti a un'acquisizione dei dati inadeguataRiepilogo degli errori RAGUtilizzo degli LLMs per la valutazione: LLM-as-a-JudgeCos'è LLM-as-a-Judge?Come funziona LLM-as-a-JudgeMetriche di valutazione RAGMetriche di recuperoMetriche di generazioneDistorsione e sicurezzaOfferte di valutazione RAGValutazione RAG apertaValutazione della generazione potenziata dal recuperoDeepEvalAmazon BedrockFeedback umanoIntegrazione della valutazione RAG nella produzioneUtilizzo di LLM-as-a-Judge in produzioneValutazione RAG offlineValutazione RAG onlineMetriche di sistema: latenza e uptimeLatenza e throughputAffidabilità e tempo di attivitàCosti ed efficienza delle risorseConclusione
7. Da RAG agli agenti AI
Cos'è un agente AI?Lo stack AgenticSistemi a agente singolo contro sistemi multi-agenteCasi d'uso degli agentiGli agenti nel servizio clientiGli agenti nei servizi finanziariIA a base di agenti nel settore sanitarioAgenti di codifica IAIl ciclo AgenticChiamata degli strumentiProtocollo di contesto del modelloArchitettura del protocollo di contesto del modelloMCP nell'IA agenziale aziendaleComunicazione tra agentiEsercitazioni pratiche con i framework di IA agenticaChatbot basati sull'IA che utilizzano LangChainAgente di generazione di documenti con LlamaIndexCreazione di un agente con VectaraCreazione di un sistema multi-agente con CrewAIMemoria di AgenticMemoria a breve termine contro memoria a lungo termineMemoria di implementazione con RAG agenzialeLinee guida aziendali: privacy e integritàValutazione e osservabilità con gli agenti IAOsservabilità degli agentiTracciamento di un agenteMetriche di osservabilità agenticaStrumenti per l'osservabilità agenticaConclusione

8. RAG multimodale
Documenti con tabelle incorporatePerché le tabelle incorporate sono importanti?Estrazione delle tabelle dai documentiPerché il chunking ingenuo non funziona con le tabelleElaborazione delle tabelle per RAGGestire le tabelle multipaginaDocumenti con immagini incorporateL'approccio di sintesi delle immaginiRecupero multimodale con uno spazio di embedding condivisoAudio e video in RAGIl punto di partenza: trascrizione ad alta fedeltàSemantica visiva: il problema del "pulsante rosso"Considerazioni sulla produzioneEconomia computazionale e latenzaAllineamento delle modalitàIl livello dell'interfaccia: citazioni visiveSicurezza, privacy e governanceOsservabilità profonda, tracciamento e sicurezza su larga scalaAllucinazioni e valutazione nel RAG multimodaleRilevamento delle allucinazioni multimodaliValutazione del recupero e della generazione multimodaleConclusione
9. RAG potenziato dalla conoscenza
Grafici di conoscenza: una panoramicaCome si effettua una ricerca in un grafico di conoscenza?Ontologie contro schemiUtilizzo dei grafici di conoscenza nel RAGCreazione di un grafico di conoscenza per i filmUtilizzo del grafico di conoscenza al momento della queryScegliere tra arricchimento e recupero ibridoCreazione di grafici di conoscenzaAutomatizzare la costruzione del grafico di conoscenzaSfruttare ontologie standard e grafici di conoscenzaGraphRAGL'infrastruttura del database graficoModelli di aggiornamento dei grafi ed evoluzioneIl compromesso tra accuratezza e costiConclusione
10. Il futuro del RAG
L'evoluzione del recuperoIl passaggio al RAG agenzialeLa realtà della gravità dei dati e del recupero federatoL'impatto di un contesto più ampioDall'ingegneria dei prompt all'ingegneria del contestoIl passaggio da un RAG reattivo a uno proattivoRAG all'edge: modelli linguistici di piccole dimensioniGovernance e conformità su larga scalaConclusione: la base di conoscenza vivente
Indice
Gli autori

Content preview from RAG pratico per la produzione (Italian Edition)

Capitolo 1. Introduzione alla Generazione potenziata dal recupero (RAG)

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Immagina un ingegnere di IA che sta creando un semplice chatbot di assistenza interna per la sua azienda. Lo prototipa in un pomeriggio usando GPT-5.1, un modello linguistico di grandi dimensioni (LLM) già pronto all’uso. I primi risultati sembrano impressionanti: il modello conversa in modo fluido, riassume documenti lunghi e redige persino bozze di codice. Ma nel momento in cui le viene chiesto qualcosa che riguarda i sistemi interni dell’azienda — “Quale sarà la politica di rimborso dopo gennaio del prossimo anno?” o “Quali account dei clienti sono contrassegnati per un follow-up questa settimana?” — le risposte crollano. Il modello restituisce con sicurezza un testo che sembra plausibile ma non ha alcun collegamento con i dati reali dell’azienda. A volte inventa politiche obsolete. A volte offre delle vere e proprie assurdità. Il problema principale non è la fluidità del modello, ma la sua cecità.

Questa “ ” è il limite fondamentale anche dei LLMs più avanzati.¹ Sono addestrati su enormi corpora — libri, articoli, repository di codice e contenuti web pubblici — che danno loro una comprensione ampia e generalizzata del linguaggio e permettono loro di svolgere compiti per cui non sono mai stati esplicitamente addestrati. Ma per quanto grande sia il set di dati di addestramento, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Progettare interfacce di IA (Italian Edition)

Publisher Resources

ISBN: 0642572397630

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

RAG pratico per la produzione (Italian Edition)

by Ofer Mendelevitch, Forrest Sheng Bao

Capitolo 1. Introduzione alla Generazione potenziata dal recupero (RAG)

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.