Kapitel 3. Analyse der Wort- und Dokumenthäufigkeit: tf-idf

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Eine zentrale Frage beim Textmining und bei der Verarbeitung natürlicher Sprache ist, wie man quantifizieren kann, worum es in einem Dokument geht. Können wir das tun, indem wir uns die Wörter ansehen, aus denen das Dokument besteht? Ein Maß dafür, wie wichtig ein Wort ist, ist seine Termfrequenz (tf), also wie häufig ein Wort in einem Dokument vorkommt, wie wir in Kapitel 1 untersucht haben. Es gibt aber auch Wörter in einem Dokument, die zwar häufig vorkommen, aber vielleicht nicht wichtig sind; im Englischen sind das wahrscheinlich Wörter wie "the", "is", "of" und so weiter. Wir könnten solche Wörter in eine Liste von Stoppwörtern aufnehmen und sie vor der Analyse entfernen, aber es ist möglich, dass einige dieser Wörter in manchen Dokumenten wichtiger sind als in anderen. Eine Liste von Stoppwörtern ist kein sehr ausgefeilter Ansatz, um die Termhäufigkeit für häufig verwendete Wörter anzupassen.

Ein anderer Ansatz ist die Betrachtung der inversen Dokumenthäufigkeit(idf) eines Begriffs, bei der die Gewichtung von häufig verwendeten Wörtern verringert und die Gewichtung von Wörtern erhöht wird, die in einer Sammlung von Dokumenten nicht sehr häufig verwendet werden. Dies kann mit der Begriffshäufigkeit kombiniert werden, um die tf-idf eines Begriffs zu berechnen (die beiden Größen werden ...

Get Text Mining mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.