Capitolo 3. Scalare il tuo stack RAG
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Nel Capitolo 2 hai visto i componenti di base di uno stack RAG: analisi dei documenti, chunking, modelli di embedding e ricerca vettoriale, oltre all'uso di un LLM per la generazione finale della risposta all'utente. Con queste conoscenze, ora dovresti essere in grado di costruire applicazioni RAG end-to-end che funzionano piuttosto bene su set di dati di piccole e medie dimensioni e sperimentare di persona come funziona il RAG nella pratica.
In questo capitolo affrontiamo tecniche più avanzate che ti aiutano a portare il tuo stack RAG su scala aziendale, senza sacrificare la latenza o la qualità della risposta, tra cui l'acquisizione dei dati, tecniche avanzate di recupero, guardrail e la gestione delle allucinazioni RAG. Sebbene non facciano strettamente parte della scalabilità, la sicurezza e la privacy dei dati diventano importanti man mano che si scala in produzione, e ne parleremo nel Capitolo 4 alla voce "Sicurezza e privacy dei dati".
Concludiamo questo capitolo con un aspetto meno discusso ma fondamentale di qualsiasi applicazione RAG: la creazione di un'ottima esperienza utente per assicurarti che il tuo frontend sia all'altezza del tuo backend.
RAG su larga scala
Quando la tua applicazione RAG cresce in termini di scala, le cose possono diventare più complesse in tempi relativamente brevi. Devi ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access