book

RAG pratico per la produzione (Italian Edition)

Name: RAG pratico per la produzione (Italian Edition)
ISBN: 0642572397630

by Ofer Mendelevitch, Forrest Sheng Bao

May 2026

Intermediate

358 pages

11h 21m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione di Sharon Zhou
Prefazione di Jim Dowling
Prefazione
Di cosa tratta questo libroA chi è rivolto questo libroA chi non è rivolto questo libroUtilizzo degli esempi di codicePrerequisitiCome orientarsi in questo libroConvenzioni utilizzate in questo libroO’Reilly Online LearningCome contattarciRingraziamenti
1. Introduzione alla generazione potenziata dal recupero (RAG)
Come funziona RAG?Il progetto di uno stack RAGIl flusso di acquisizioneIl flusso delle queryEsempio: RAG con LangChainRAG rispetto ad altri approcciRAG contro "Chat with PDF"RAG contro il fine-tuningVantaggi principali del RAGRAG è scalabile ed efficienteRAG aiuta a ridurre le allucinazioniRAG garantisce la spiegabilitàAggiunta e rimozione quasi istantanea di conoscenzeControlli di accesso e sicurezzaCasi d'uso del RAGAssistenti virtuali e chatbot basati sull'intelligenza artificialeGestione delle conoscenze aziendali e ricerca internaCreazione automatizzata di contenuti e sintesi di documentiCreazione di annunci personalizzati accattivanti ed efficaciSistemi di domande e risposteApplicazioni mediche e sanitarieRicerca in ambito legale e di conformitàRAG avanzatoRAG agenzialeRAG multimodaleRAG con grafici di conoscenzaConclusione
2. Lo stack RAG di base
Flussi dello stack RAGIl flusso di acquisizioneIl flusso di queryAnalisi dei documentiEstrazione di testo da vari formati di file Analisi dei documenti con modelli visione-linguaggioEsempio di codice: analisi dei fileSuddivisione del testo in blocchiStrategie di chunkingEsempio di codice: chunking in PythonModelli di embeddingCos'è l'embedding?Criteri di selezione per i modelli di embeddingConsigli pratici e considerazioniEsempio di codice: Generazione di embedding con Sentence TransformersDatabase vettoriali e ricerca vettorialeComprendere la ricerca di similarità basata su vettoriAlgoritmi di approssimazione del vicino più prossimoDatabase vettorialiParametri da considerare quando si utilizza la ricerca vettorialeEsempio di codice: memorizzazione e recupero di vettori utilizzando pgvectorLLMs generativeLLMsIngegneria dei prompt RAGValutazione degli LLMs e dei modelli di promptEsempio di codice: Utilizzo di Anthropic Claude per generare risposte in RAGConclusione
3. Scalare il tuo stack RAG
RAG su larga scalaVolume e complessità dei documentiAggiornamento dell'indiceGestione e ottimizzazione dei costiAcquisizione avanzata dei datiGestione di un grande volume di documentiGestione della qualità dei dati incoerenteGestione di documenti di grandi dimensioniEsempio: Suddivisione di un file PDF di grandi dimensioniGestione degli aggiornamenti e del refresh dei documentiRecupero avanzatoIl flusso di recupero in due fasiRicerca ibridaRiorganizzazione dei risultatiImplementazione di misure di sicurezzaMisure di sicurezza per l'IAPrevenzione degli attacchi di iniezione di promptControllo delle allucinazioni in RAGDefinizione delle allucinazioni in RAGAllucinazioni LLM contro allucinazioni RAGRilevamento delle allucinazioniCorrezione delle allucinazioniCreare un'ottima esperienza utente con RAGConsiderazioni sull'esperienza utente di RAGInterfacce utente multimodaliStrumenti e implementazioni di riferimentoConclusione
4. Implementazione del RAG in produzione
Sfide con il RAG in produzioneQualità della risposta e riduzione delle allucinazioniElevata latenzaSicurezza dei dati e privacyCaos dei fornitori e problemi di integrazioneTeam e competenzeCosto totale di proprietàValutazione RAGUn'architettura di produzione di riferimentoTransizione di successo dal proof of concept alla produzioneRiassumi ciò che hai imparato nella prova di concettoDefinisci obiettivi e requisitiGarantire il successo continuo del RAGConclusione
5. La piattaforma RAG
RAG fai da te contro piattaforma RAGFunzionalità principali di RAGFonti dei datiEspansione del RAG e governance centralizzataCosti e manutenzioneOpzioni di implementazioneEsempio di piattaforma RAG: VectaraPer iniziareInserimento dei dati in VectaraEsecuzione delle queryCorrezione delle allucinazioniAltri endpoint dell'API di amministrazione RAGConclusione
6. Valutazione della tua applicazione RAG
In che modo il RAG fallisce?Errori di recuperoErrori di generazioneErrori dovuti a un'acquisizione dei dati inadeguataRiepilogo degli errori RAGUtilizzo degli LLMs per la valutazione: LLM-as-a-JudgeCos'è LLM-as-a-Judge?Come funziona LLM-as-a-JudgeMetriche di valutazione RAGMetriche di recuperoMetriche di generazioneDistorsione e sicurezzaOfferte di valutazione RAGValutazione RAG apertaValutazione della generazione potenziata dal recuperoDeepEvalAmazon BedrockFeedback umanoIntegrazione della valutazione RAG nella produzioneUtilizzo di LLM-as-a-Judge in produzioneValutazione RAG offlineValutazione RAG onlineMetriche di sistema: latenza e uptimeLatenza e throughputAffidabilità e tempo di attivitàCosti ed efficienza delle risorseConclusione
7. Da RAG agli agenti AI
Cos'è un agente AI?Lo stack AgenticSistemi a agente singolo contro sistemi multi-agenteCasi d'uso degli agentiGli agenti nel servizio clientiGli agenti nei servizi finanziariIA a base di agenti nel settore sanitarioAgenti di codifica IAIl ciclo AgenticChiamata degli strumentiProtocollo di contesto del modelloArchitettura del protocollo di contesto del modelloMCP nell'IA agenziale aziendaleComunicazione tra agentiEsercitazioni pratiche con i framework di IA agenticaChatbot basati sull'IA che utilizzano LangChainAgente di generazione di documenti con LlamaIndexCreazione di un agente con VectaraCreazione di un sistema multi-agente con CrewAIMemoria di AgenticMemoria a breve termine contro memoria a lungo termineMemoria di implementazione con RAG agenzialeLinee guida aziendali: privacy e integritàValutazione e osservabilità con gli agenti IAOsservabilità degli agentiTracciamento di un agenteMetriche di osservabilità agenticaStrumenti per l'osservabilità agenticaConclusione

8. RAG multimodale
Documenti con tabelle incorporatePerché le tabelle incorporate sono importanti?Estrazione delle tabelle dai documentiPerché il chunking ingenuo non funziona con le tabelleElaborazione delle tabelle per RAGGestire le tabelle multipaginaDocumenti con immagini incorporateL'approccio di sintesi delle immaginiRecupero multimodale con uno spazio di embedding condivisoAudio e video in RAGIl punto di partenza: trascrizione ad alta fedeltàSemantica visiva: il problema del "pulsante rosso"Considerazioni sulla produzioneEconomia computazionale e latenzaAllineamento delle modalitàIl livello dell'interfaccia: citazioni visiveSicurezza, privacy e governanceOsservabilità profonda, tracciamento e sicurezza su larga scalaAllucinazioni e valutazione nel RAG multimodaleRilevamento delle allucinazioni multimodaliValutazione del recupero e della generazione multimodaleConclusione
9. RAG potenziato dalla conoscenza
Grafici di conoscenza: una panoramicaCome si effettua una ricerca in un grafico di conoscenza?Ontologie contro schemiUtilizzo dei grafici di conoscenza nel RAGCreazione di un grafico di conoscenza per i filmUtilizzo del grafico di conoscenza al momento della queryScegliere tra arricchimento e recupero ibridoCreazione di grafici di conoscenzaAutomatizzare la costruzione del grafico di conoscenzaSfruttare ontologie standard e grafici di conoscenzaGraphRAGL'infrastruttura del database graficoModelli di aggiornamento dei grafi ed evoluzioneIl compromesso tra accuratezza e costiConclusione
10. Il futuro del RAG
L'evoluzione del recuperoIl passaggio al RAG agenzialeLa realtà della gravità dei dati e del recupero federatoL'impatto di un contesto più ampioDall'ingegneria dei prompt all'ingegneria del contestoIl passaggio da un RAG reattivo a uno proattivoRAG all'edge: modelli linguistici di piccole dimensioniGovernance e conformità su larga scalaConclusione: la base di conoscenza vivente
Indice
Gli autori

Content preview from RAG pratico per la produzione (Italian Edition)

Capitolo 2. Lo stack RAG di base

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Nel Capitolo 1 abbiamo introdotto l'idea centrale della generazione potenziata dal recupero (RAG): consentire ai modelli linguistici di grandi dimensioni di accedere a conoscenze esterne invece di affidarsi esclusivamente a ciò che hanno appreso durante l'addestramento. In questo capitolo approfondiamo i componenti tecnici che permettono a un sistema RAG di funzionare nella pratica. Questi componenti formano una pipeline in cui fluiscono i dati —spesso chiamata stack RAG—che va dalla preparazione dei documenti grezzi alla generazione di risposte di alta qualità e radicate nel contesto.

Iniziamo esaminando i due flussi principali che definiscono ogni sistema RAG: il flusso di acquisizione, che trasforma e archivia i dati per fornire in futuro a un LLM conoscenze non ancora viste, e il flusso di query, che si attiva al momento dell'inferenza per soddisfare le richieste degli utenti. Ogni fase di questi flussi — analisi sintattica, suddivisione in blocchi, embedding, indicizzazione, ricerca vettoriale, riordino e generazione basata su LLM — svolge un ruolo distinto e presenta i propri compromessi. Comprendere questi elementi è essenziale per diagnosticare gli errori, migliorare la qualità e progettare architetture RAG scalabili che si comportino in modo prevedibile negli ambienti di produzione.

Mentre esaminiamo ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Progettare interfacce di IA (Italian Edition)

Publisher Resources

ISBN: 0642572397630

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

RAG pratico per la produzione (Italian Edition)

by Ofer Mendelevitch, Forrest Sheng Bao

Capitolo 2. Lo stack RAG di base

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.