Skip to Main Content
Blaupausen für Textanalyse mit Python
book

Blaupausen für Textanalyse mit Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
September 2024
Intermediate to advanced content levelIntermediate to advanced
424 pages
13h 12m
German
O'Reilly Media, Inc.
Book available
Content preview from Blaupausen für Textanalyse mit Python

Kapitel 8. Unüberwachte Methoden: Themenmodellierung und Clustering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du mit einer großen Anzahl von Dokumenten arbeitest, ist eine der ersten Fragen, die du dir stellen willst, ohne sie alle zu lesen: "Worüber sprechen sie?" Du interessierst dich für die allgemeinen Themen der Dokumente, d.h. welche (idealerweise semantischen) Wörter häufig zusammen verwendet werden.

Die Topic Modellierung versucht, diese Herausforderung zu lösen, indem sie statistische Verfahren einsetzt, um Themen aus einem Korpus von Dokumenten herauszufinden. Je nach deiner Vektorisierung (siehe Kapitel 5) kannst du verschiedene Arten von Themen finden. Themen bestehen aus einer Wahrscheinlichkeitsverteilung von Merkmalen (Wörter, n-Gramme usw.).

Themen überschneiden sich in der Regel miteinander; sie sind nicht klar voneinander getrennt. Dasselbe gilt für Dokumente: Es ist nicht möglich, ein Dokument eindeutig einem einzigen Thema zuzuordnen; ein Dokument enthält immer eine Mischung aus verschiedenen Themen. Das Ziel der Themenmodellierung besteht nicht in erster Linie darin, einem beliebigen Dokument ein Thema zuzuordnen, sondern die globale Struktur des Korpus zu finden.

Oft hat eine Menge von Dokumenten eine explizite Struktur, die durch Kategorien, Schlüsselwörter usw. vorgegeben ist. Wenn wir einen Blick auf die organische Zusammensetzung des Korpus werfen wollen, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python für die Bioinformatik beherrschen

Python für die Bioinformatik beherrschen

Ken Youens-Clark
Python in a Nutshell, 4. Auflage

Python in a Nutshell, 4. Auflage

Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

Publisher Resources

ISBN: 9781098191191Supplemental Content