Kapitel 29. Unüberwachtes Lernen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel von werden die Details der in Spark verfügbaren Tools für unüberwachtes Lernen behandelt, wobei der Schwerpunkt auf dem Clustering liegt. Unüberwachtes Lernen wird im Allgemeinen seltener eingesetzt als überwachtes Lernen, weil es in der Regel schwieriger ist, es anzuwenden und den Erfolg zu messen (aus der Perspektive des Endergebnisses). Diese Herausforderungen können sich im großen Maßstab noch verschärfen. So kann das Clustering in einem hochdimensionalen Raum allein aufgrund der Eigenschaften hochdimensionaler Räume zu ungeraden Clustern führen, was als Fluch der Dimensionalität bezeichnet wird. Der Fluch der Dimensionalität beschreibt die Tatsache, dass ein Merkmalsraum mit zunehmender Dimensionalität immer spärlicher wird. Das bedeutet, dass die Datenmenge, die benötigt wird, um diesen Raum für statistisch aussagekräftige Ergebnisse zu füllen, mit zunehmender Dimensionalität rapide ansteigt. Außerdem steigt mit der Anzahl der Dimensionen auch das Rauschen in den Daten. Das wiederum kann dazu führen, dass sich dein Modell auf das Rauschen konzentriert, anstatt auf die wahren Faktoren, die ein bestimmtes Ergebnis oder eine bestimmte Gruppierung verursachen. In der Tabelle zur Skalierbarkeit des Modells geben wir daher sowohl Rechengrenzen als auch eine Reihe von statistischen Empfehlungen an. ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.