Kapitel 7. Kontextabhängige Textanalyse

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Modelle, die wir in diesem Buch bisher gesehen haben, verwenden eine Bag-of-Words-Zerlegungstechnik, die es uns ermöglicht, Beziehungen zwischen Dokumenten zu untersuchen, die dieselbe Mischung aus einzelnen Wörtern enthalten. Das ist unglaublich nützlich, und wir haben gesehen, dass die Häufigkeit von Token sehr effektiv sein kann, vor allem in Fällen, in denen das Vokabular einer bestimmten Disziplin oder eines Themas ausreicht, um es von anderen Texten zu unterscheiden oder mit ihnen in Beziehung zu setzen.

Was wir jedoch noch nicht berücksichtigt haben, ist der Kontext, in dem die Wörter erscheinen, von dem wir instinktiv wissen, dass er eine große Rolle bei der Vermittlung der Bedeutung spielt. Betrachte die folgenden Sätze: "Sie mochte den Duft von Rosen" und "Sie roch nach Rosen". Mit den in den vorangegangenen Kapiteln vorgestellten Textnormalisierungstechniken wie dem Entfernen von Stoppwörtern und der Lemmatisierung würden diese beiden Äußerungen identische Bag-of-Words-Vektoren aufweisen, obwohl sie völlig unterschiedliche Bedeutungen haben.

Das bedeutet nicht, dass Bag-of-Words-Modelle völlig außer Acht gelassen werden sollten, und tatsächlich sind Bag-of-Words-Modelle in der Regel sehr nützliche Ausgangsmodelle. Dennoch können leistungsschwächere Modelle oft durch die Extraktion von Kontextmerkmalen ...

Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.