Skip to Main Content
Spark: Der endgültige Leitfaden
book

Spark: Der endgültige Leitfaden

by Bill Chambers, Matei Zaharia
September 2024
Intermediate to advanced content levelIntermediate to advanced
606 pages
16h 25m
German
O'Reilly Media, Inc.
Book available
Content preview from Spark: Der endgültige Leitfaden

Kapitel 29. Unüberwachtes Lernen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel von werden die Details der in Spark verfügbaren Tools für unüberwachtes Lernen behandelt, wobei der Schwerpunkt auf dem Clustering liegt. Unüberwachtes Lernen wird im Allgemeinen seltener eingesetzt als überwachtes Lernen, weil es in der Regel schwieriger ist, es anzuwenden und den Erfolg zu messen (aus der Perspektive des Endergebnisses). Diese Herausforderungen können sich im großen Maßstab noch verschärfen. So kann das Clustering in einem hochdimensionalen Raum allein aufgrund der Eigenschaften hochdimensionaler Räume zu ungeraden Clustern führen, was als Fluch der Dimensionalität bezeichnet wird. Der Fluch der Dimensionalität beschreibt die Tatsache, dass ein Merkmalsraum mit zunehmender Dimensionalität immer spärlicher wird. Das bedeutet, dass die Datenmenge, die benötigt wird, um diesen Raum für statistisch aussagekräftige Ergebnisse zu füllen, mit zunehmender Dimensionalität rapide ansteigt. Außerdem steigt mit der Anzahl der Dimensionen auch das Rauschen in den Daten. Das wiederum kann dazu führen, dass sich dein Modell auf das Rauschen konzentriert, anstatt auf die wahren Faktoren, die ein bestimmtes Ergebnis oder eine bestimmte Gruppierung verursachen. In der Tabelle zur Skalierbarkeit des Modells geben wir daher sowohl Rechengrenzen als auch eine Reihe von statistischen Empfehlungen an. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark lernen, 2. Auflage

Spark lernen, 2. Auflage

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Strategisches IT-Management

Strategisches IT-Management

Josephine Hofmann, Matthias Knoll

Publisher Resources

ISBN: 9781098183950Supplemental Content