Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 6. Wikipediamit LDA und Spark NLP verstehen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Mit der wachsenden Menge an unstrukturierten Textdaten in den letzten Jahren, ist es schwierig geworden, die relevanten und gewünschten Informationen zu erhalten. Die Sprachtechnologie bietet leistungsstarke Methoden, um Textdaten zu durchforsten und die gesuchten Informationen zu finden. In diesem Kapitel werden wir PySpark und die Spark NLP-Bibliothek (Natural Language Processing) verwenden, um eine solche Technik zu nutzen - die Themenmodellierung. Konkret werden wir den latenten Dirichlet-Algorithmus (LDA) verwenden, um einen Datensatz von Wikipedia-Dokumenten zu verstehen.

Die Themenmodellierung, eine der häufigsten Aufgaben in der natürlichen Sprachverarbeitung, ist ein statistischer Ansatz zur Datenmodellierung, der dabei hilft, zugrundeliegende Themen in einer Sammlung von Dokumenten zu entdecken. Die Extraktion von Themenverteilungen aus Millionen von Dokumenten kann in vielerlei Hinsicht nützlich sein - zum Beispiel, um die Gründe für Beschwerden über ein bestimmtes Produkt oder alle Produkte zu ermitteln oder um Themen in Nachrichtenartikeln zu identifizieren. Der beliebteste Algorithmus für die Themenmodellierung ist LDA. Dabei handelt es sich um ein generatives Modell, das davon ausgeht, dass Dokumente durch eine Verteilung von Themen dargestellt werden. Die Themen wiederum werden ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content