Skip to Main Content
Blaupausen für Textanalyse mit Python
book

Blaupausen für Textanalyse mit Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
September 2024
Intermediate to advanced content levelIntermediate to advanced
424 pages
13h 12m
German
O'Reilly Media, Inc.
Book available
Content preview from Blaupausen für Textanalyse mit Python

Kapitel 10. Semantische Beziehungen mit Worteinbettungen erforschen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Konzept der Ähnlichkeit ist grundlegend für alle Aufgaben des maschinellen Lernens. In Kapitel 5 haben wir erklärt, wie die Textähnlichkeit auf der Grundlage des Bag-of-Words-Modells berechnet werden kann. Bei zwei TF-IDF-Vektoren für Dokumente lässt sich ihre Kosinus-Ähnlichkeit leicht berechnen, und wir können diese Information nutzen, um ähnliche Dokumente zu suchen, zu clustern oder zu klassifizieren.

Das Konzept der Ähnlichkeit im Bag-of-Words-Modell basiert jedoch vollständig auf der Anzahl der gemeinsamen Wörter in zwei Dokumenten. Wenn die Dokumente keine gemeinsamen Token enthalten, ist das Punktprodukt der Dokumentenvektoren und damit die Kosinusähnlichkeit gleich Null. Betrachten wir die folgenden zwei Kommentare zu einem neuen Film, die auf einer sozialen Plattform zu finden sind:

"Was für ein wunderbarer Film."

"Der Film ist großartig."

Offensichtlich haben die Kommentare auf eine ähnliche Bedeutung, obwohl sie völlig unterschiedliche Wörter verwenden. In diesem Kapitel stellen wir die Worteinbettung als Mittel zur Erfassung der Semantik von Wörtern vor und nutzen sie, um semantische Ähnlichkeiten innerhalb eines Korpus zu untersuchen.

Was du lernen wirst und was wir bauen werden

Für unseren Anwendungsfall nehmen wir an, dass wir Marktforscher sind und Texte ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python für die Bioinformatik beherrschen

Python für die Bioinformatik beherrschen

Ken Youens-Clark
Python in a Nutshell, 4. Auflage

Python in a Nutshell, 4. Auflage

Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

Publisher Resources

ISBN: 9781098191191Supplemental Content