Chapitre 4. Recherchesémantique avec SQLite3
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Dans ce chapitre, on va créer un système de gestion des connaissances personnelles en utilisant la recherche sémantique sur le contenu de Reddit. Tu vas apprendre à effectuer des recherches par sens plutôt que par mots-clés en combinant l'interface SQL familière de SQLite avec la recherche par similarité vectorielle.
Au chapitre 3, on a exploré FAISS en tant que moteur de recherche de similarité vectorielle dédié. Ici, on utilise sqlite-vss, une extension SQLite qui encapsule FAISS, intégrant ainsi la recherche vectorielle dans l'univers des bases de données relationnelles. Cette combinaison nous permet d'effectuer une recherche sémantique ainsi qu'un filtrage de métadonnées relationnelles dans un seul flux de travail SQL. En pratique, la plupart des requêtes sqlite-vss récupèrent d’abord les candidats les plus proches, puis appliquent des filtres de métadonnées dans un deuxième temps (les filtres ne sont pas intégrés à la recherche FAISS) ; nous utiliserons donc un modèle « overfetch-then-filter » pour renvoyer de manière fiable un nombre suffisant de résultats.
Notre objectif est pratique : imagine que tu aies enregistré des centaines de publications Reddit sur divers sujets. Avec ce système, tu peux rechercher des publications dont le sens est similaire à « Deep Learning pour les appareils périphériques ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access