Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 5. Erkennung von Anomalien mit K-means Clustering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Klassifizierung und Regression sind leistungsstarke, gut erforschte Techniken des maschinellen Lernens. In Kapitel 4 wurde gezeigt, wie man einen Klassifikator zur Vorhersage unbekannter Werte einsetzt. Aber die Sache hat einen Haken: Um unbekannte Werte für neue Daten vorhersagen zu können, müssen wir die Zielwerte für viele zuvor gesehene Beispiele kennen. Klassifikatoren können nur dann helfen, wenn wir, die Datenwissenschaftler, wissen, wonach wir suchen, und viele Beispiele liefern können, bei denen die Eingabe eine bekannte Ausgabe ergab. Diese werden als überwachte Lerntechniken bezeichnet, weil ihr Lernprozess für jedes Beispiel in der Eingabe den richtigen Ausgabewert erhält.

Manchmal ist jedoch die korrekte Ausgabe für einige oder alle Beispiele unbekannt. Betrachten wir das Problem, die Kunden einer E-Commerce-Website nach ihren Einkaufsgewohnheiten und ihrem Geschmack aufzuteilen. Die Eingabemerkmale sind ihre Einkäufe, Klicks, demografische Informationen und mehr. Das Ergebnis sollen Kundengruppen sein: Eine Gruppe entspricht vielleicht modebewussten Käufern, eine andere den preissensiblen Schnäppchenjägern und so weiter.

Wenn du dieses Ziellabel für jeden neuen Kunden bestimmen müsstest, würdest du bei der Anwendung einer überwachten Lerntechnik wie einem Klassifikator schnell ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content