Chapitre 5. Bases de données vectorielles avec FAISS et Pinecone
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre présente le concept des embeddings et des bases de données vectorielles, en discutant de la façon dont ils peuvent être utilisés pour fournir un contexte pertinent dans les prompts.
Une base de données vectorielle est un outil le plus souvent utilisé pour stocker des données textuelles de manière à pouvoir les interroger sur la base de leur similarité ou de leur signification sémantique. Cette technologie est utilisée pour diminuer les hallucinations (lorsque le modèle d'IA invente quelque chose) en référençant des données sur lesquelles le modèle n'est pas entraîné, ce qui améliore considérablement la précision et la qualité de la réponse du LLM. Les cas d'utilisation des bases de données vectorielles comprennent également la lecture de documents, la recommandation de produits similaires ou la mémorisation de conversations passées.
Lesvecteurs sont des listes de nombres représentant du texte (ou des images), que tu peux assimiler aux coordonnées d'un lieu. Le vecteur pour le mot souris en utilisant le modèle text-embedding-ada-002 d'OpenAI est une liste de 1 536 nombres, chacun représentant la valeur d'une caractéristique que le modèle d'intégration a apprise au cours de l'entraînement :
[-0.011904156766831875, -0.0323905423283577, 0.001950666424818337, ...]
Lorsque ces modèles ...