Capitolo 2. Lo stack RAG di base
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Nel Capitolo 1 abbiamo introdotto l'idea centrale della generazione potenziata dal recupero (RAG): consentire ai modelli linguistici di grandi dimensioni di accedere a conoscenze esterne invece di affidarsi esclusivamente a ciò che hanno appreso durante l'addestramento. In questo capitolo approfondiamo i componenti tecnici che permettono a un sistema RAG di funzionare nella pratica. Questi componenti formano una pipeline in cui fluiscono i dati —spesso chiamata stack RAG—che va dalla preparazione dei documenti grezzi alla generazione di risposte di alta qualità e radicate nel contesto.
Iniziamo esaminando i due flussi principali che definiscono ogni sistema RAG: il flusso di acquisizione, che trasforma e archivia i dati per fornire in futuro a un LLM conoscenze non ancora viste, e il flusso di query, che si attiva al momento dell'inferenza per soddisfare le richieste degli utenti. Ogni fase di questi flussi — analisi sintattica, suddivisione in blocchi, embedding, indicizzazione, ricerca vettoriale, riordino e generazione basata su LLM — svolge un ruolo distinto e presenta i propri compromessi. Comprendere questi elementi è essenziale per diagnosticare gli errori, migliorare la qualità e progettare architetture RAG scalabili che si comportino in modo prevedibile negli ambienti di produzione.
Mentre esaminiamo ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access