Kapitel 10. Semantische Beziehungen mit Worteinbettungen erforschen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Das Konzept der Ähnlichkeit ist grundlegend für alle Aufgaben des maschinellen Lernens. In Kapitel 5 haben wir erklärt, wie die Textähnlichkeit auf der Grundlage des Bag-of-Words-Modells berechnet werden kann. Bei zwei TF-IDF-Vektoren für Dokumente lässt sich ihre Kosinus-Ähnlichkeit leicht berechnen, und wir können diese Information nutzen, um ähnliche Dokumente zu suchen, zu clustern oder zu klassifizieren.
Das Konzept der Ähnlichkeit im Bag-of-Words-Modell basiert jedoch vollständig auf der Anzahl der gemeinsamen Wörter in zwei Dokumenten. Wenn die Dokumente keine gemeinsamen Token enthalten, ist das Punktprodukt der Dokumentenvektoren und damit die Kosinusähnlichkeit gleich Null. Betrachten wir die folgenden zwei Kommentare zu einem neuen Film, die auf einer sozialen Plattform zu finden sind:
"Was für ein wunderbarer Film."
"Der Film ist großartig."
Offensichtlich haben die Kommentare auf eine ähnliche Bedeutung, obwohl sie völlig unterschiedliche Wörter verwenden. In diesem Kapitel stellen wir die Worteinbettung als Mittel zur Erfassung der Semantik von Wörtern vor und nutzen sie, um semantische Ähnlichkeiten innerhalb eines Korpus zu untersuchen.
Was du lernen wirst und was wir bauen werden
Für unseren Anwendungsfall nehmen wir an, dass wir Marktforscher sind und Texte ...
Get Blaupausen für Textanalyse mit Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.