Kapitel 12. Semantische Suche und Ähnlichkeit
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Ein großer Teil der weltweit verfügbaren Daten liegt in Form von Dokumenten vor - Dokumente, die von Menschen für Menschen erstellt und daher in natürlicher Sprache ausgedrückt werden. Natürliche Sprache lässt sich jedoch nicht so einfach programmatisch nutzen, da sie keine klar definierte Struktur wie eine Tabelle (Datenbank oder CSV-Datei) oder eine Hierarchie (JSON- oder XML-Dokument) hat. Jede automatisierte Nutzung eines natürlichsprachlichen Dokuments erfordert eine gewisse Vorverarbeitung, um strukturierte Informationen daraus zu extrahieren. Wenn du über die Grundlagen der Textverarbeitung (Wortzählung, textbasierte Analyse) hinausgehen willst, kann dies nur mit der Technologie der natürlichen Sprachverarbeitung (NLP) erreicht werden . In diesem Kapitel wirst du sehen, wie die Arten von Strukturen, die sich aus der Anwendung von NLP-Techniken ergeben, auf natürliche Weise in eine Graphenstruktur passen und wie der Aufbau von Wissensgraphen aus unstrukturierten Daten eine anspruchsvollere Nutzung ermöglicht.
Suche über unstrukturierte Daten
Die erste offensichtliche Möglichkeit, wie den Inhalt natürlichsprachlicher Dokumente programmatisch nutzen kann, ist die Suche. Die Suche ist ein Bereich, der eine unglaublich lange Geschichte hinter sich hat. In ihren Anfängen, noch vor zwei Jahrzehnten ...
Get Wissensgraphen aufbauen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.