Chapitre 12. Recherche sémantique et similarité
Une bonne partie des données disponibles dans le monde se présente sous la forme de documents - des documents créés par des humains pour être consommés par des humains et donc exprimés en langage naturel. Mais le langage naturel n'est pas facile à exploiter par programme car il ne possède pas de structure bien définie comme une table (base de données ou fichier CSV) ou une hiérarchie (document JSON ou XML). Toute utilisation automatisée d'un document en langage naturel nécessitera un prétraitement pour en extraire des informations structurées. Si tu veux aller au-delà des bases du traitement de texte (comptage de mots, analyse textuelle), cela ne peut être réalisé qu'à l'adresse à l'aide d'une technologie appelée traitement du langage naturel (NLP). Dans ce chapitre, tu verras comment les types de structures qui résultent de l'application des techniques NLP s'intègrent naturellement dans une structure de graphe et comment la construction de graphes de connaissances à partir de données non structurées permet une exploitation plus sophistiquée.
Recherche sur des données non structurées
La première façon évidente de permettre à d'utiliser de façon programmatique le contenu des documents en langage naturel est d'activer la recherche. La recherche est un domaine qui a connu une histoire récente incroyable. ...