Kapitel 8. Unüberwachte Methoden: Themenmodellierung und Clustering
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wenn du mit einer großen Anzahl von Dokumenten arbeitest, ist eine der ersten Fragen, die du dir stellen willst, ohne sie alle zu lesen: "Worüber sprechen sie?" Du interessierst dich für die allgemeinen Themen der Dokumente, d.h. welche (idealerweise semantischen) Wörter häufig zusammen verwendet werden.
Die Topic Modellierung versucht, diese Herausforderung zu lösen, indem sie statistische Verfahren einsetzt, um Themen aus einem Korpus von Dokumenten herauszufinden. Je nach deiner Vektorisierung (siehe Kapitel 5) kannst du verschiedene Arten von Themen finden. Themen bestehen aus einer Wahrscheinlichkeitsverteilung von Merkmalen (Wörter, n-Gramme usw.).
Themen überschneiden sich in der Regel miteinander; sie sind nicht klar voneinander getrennt. Dasselbe gilt für Dokumente: Es ist nicht möglich, ein Dokument eindeutig einem einzigen Thema zuzuordnen; ein Dokument enthält immer eine Mischung aus verschiedenen Themen. Das Ziel der Themenmodellierung besteht nicht in erster Linie darin, einem beliebigen Dokument ein Thema zuzuordnen, sondern die globale Struktur des Korpus zu finden.
Oft hat eine Menge von Dokumenten eine explizite Struktur, die durch Kategorien, Schlüsselwörter usw. vorgegeben ist. Wenn wir einen Blick auf die organische Zusammensetzung des Korpus werfen wollen, ...
Get Blaupausen für Textanalyse mit Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.