Kapitel 5. Text-Clustering und Themenmodellierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Obwohl überwachte Techniken wie die Klassifizierung in den letzten Jahren in der Branche die Oberhand gewonnen haben, darf das Potenzial von unüberwachten Techniken wie dem Text-Clustering nicht unterschätzt werden.
Ziel des Textclustering ist es, ähnliche Texte auf der Grundlage ihres semantischen Inhalts, ihrer Bedeutung und ihrer Beziehungen zu gruppieren. Wie in Abbildung 5-1 dargestellt, erleichtern die entstehenden Cluster semantisch ähnlicher Dokumente nicht nur die effiziente Kategorisierung großer Mengen unstrukturierter Texte, sondern ermöglichen auch eine schnelle explorative Datenanalyse.
Abbildung 5-1. Clustering unstrukturierter Textdaten.
Die jüngste Entwicklung von Sprachmodellen, die kontextuelle und semantische Darstellungen von Texten ermöglichen, hat die Effektivität des Textclusterns verbessert. Sprache ist mehr als eine Ansammlung von Wörtern, und die neuesten Sprachmodelle haben bewiesen, dass sie diesen Begriff gut erfassen können. Das Textclustering, das nicht an die Überwachung gebunden ist, ermöglicht kreative Lösungen und vielfältige Anwendungen, z. B. das Auffinden von Ausreißern, die Beschleunigung der Beschriftung und das Auffinden falsch beschrifteter Daten.
Das Textclustering ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access