Capitolo 5. Database vettoriali con FAISS e Pinecone
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Questo capitolo introduce il concetto di embeddings e di database vettoriali, discutendo come possono essere utilizzati per fornire un contesto rilevante nei prompt.
Un database vettoriale è uno strumento comunemente utilizzato su per archiviare dati di testo in modo da consentire query basate sulla somiglianza o sul significato semantico. Questa tecnologia viene utilizzata per ridurre le allucinazioni (in cui il modello di intelligenza artificiale si inventa qualcosa) facendo riferimento a dati su cui il modello non è stato addestrato, migliorando in modo significativo l'accuratezza e la qualità della risposta della LLM. I casi di utilizzo dei database vettoriali includono anche la lettura di documenti, la raccomandazione di prodotti simili o la memorizzazione di conversazioni passate.
Ivettori sono elenchi di numeri che rappresentano il testo (o le immagini) e che possono essere considerati come le coordinate di un luogo. Il vettore per la parola mouse utilizzando il modello text-embedding-ada-002 di OpenAI è un elenco di 1.536 numeri, ognuno dei quali rappresenta il valore di una caratteristica appresa dal modello di embedding durante l'addestramento:
[-0.011904156766831875, -0.0323905423283577, 0.001950666424818337, ...]
Quando questi modelli vengono addestrati, i testi che appaiono ...