Capitolo 8. RAGmultimodale
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Finora ci siamo concentrati principalmente sul RAG basato sul testo, dove le risposte fondate sulla conoscenza erano limitate a ciò che poteva essere scritto, ignorando le informazioni rappresentate in altri formati, come tabelle, immagini, audio e video.
In realtà, le conoscenze aziendali sono disponibili in molte modalità: una tabella dei profitti e delle perdite (P&L) in un rapporto finanziario, le istruzioni visive in un manuale d'uso o le sfumature verbali in una chiamata al servizio clienti. Senza la possibilità di vedere il grafico, ascoltare la chiamata o leggere la tabella, l'accuratezza del sistema RAG ne risente: fornirà risposte di alta qualità basate su documenti testuali, ma fornirà risposte di bassa qualità o errate quando le informazioni necessarie per una risposta accurata si trovano all'interno di una tabella o di un'immagine.
In questo capitolo, , esploriamo il RAG multimodale e come integrare nel RAG i dati provenienti da altre modalità (non testuali). Approfondiremo le strategie fondamentali per integrare queste altre modalità ed esamineremo le sfide di produzione che comportano.
Per orientarti in questo panorama, è utile chiarire cosa significa "multimodale" in un ambiente di produzione. Anche se l'ideale è un unico modello multimodale "nativo" che utilizzi audio e video grezzi con la stessa ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access