Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 4. Vorhersagen mit Entscheidungsbäumenund Entscheidungswäldern treffen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Klassifizierung und Regression sind die ältesten und am besten untersuchten Arten der prädiktiven Analytik. Die meisten Algorithmen, die du in Analysepaketen und -bibliotheken finden wirst, sind Klassifizierungs- oder Regressionstechniken, wie z. B. Support-Vektor-Maschinen, logistische Regression, neuronale Netze und Deep Learning. Die Gemeinsamkeit zwischen Regression und Klassifizierung besteht darin, dass es in beiden Fällen darum geht, einen (oder mehrere) Werte anhand eines (oder mehrerer) anderer Werte vorherzusagen. Dazu benötigen beide eine Reihe von Eingaben und Ausgaben, aus denen sie lernen können. Sie müssen sowohl mit Fragen als auch mit bekannten Antworten gefüttert werden. Aus diesem Grund werden sie als Arten des überwachten Lernens bezeichnet.

PySpark MLlib bietet Implementierungen einer Anzahl von Klassifizierungs- und Regressionsalgorithmen. Dazu gehören Entscheidungsbäume, Naïve Bayes, logistische Regression und lineare Regression. Das Spannende an diesen Algorithmen ist, dass sie dabei helfen können, die Zukunft vorherzusagen - oder zumindest die Dinge vorherzusagen, die wir noch nicht sicher wissen, wie z. B. die Wahrscheinlichkeit, dass du aufgrund deines Online-Verhaltens ein Auto kaufst, ob eine E-Mail aufgrund der darin enthaltenen Wörter Spam ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content