Kapitel 4. Vorhersagen mit Entscheidungsbäumenund Entscheidungswäldern treffen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Klassifizierung und Regression sind die ältesten und am besten untersuchten Arten der prädiktiven Analytik. Die meisten Algorithmen, die du in Analysepaketen und -bibliotheken finden wirst, sind Klassifizierungs- oder Regressionstechniken, wie z. B. Support-Vektor-Maschinen, logistische Regression, neuronale Netze und Deep Learning. Die Gemeinsamkeit zwischen Regression und Klassifizierung besteht darin, dass es in beiden Fällen darum geht, einen (oder mehrere) Werte anhand eines (oder mehrerer) anderer Werte vorherzusagen. Dazu benötigen beide eine Reihe von Eingaben und Ausgaben, aus denen sie lernen können. Sie müssen sowohl mit Fragen als auch mit bekannten Antworten gefüttert werden. Aus diesem Grund werden sie als Arten des überwachten Lernens bezeichnet.
PySpark MLlib bietet Implementierungen einer Anzahl von Klassifizierungs- und Regressionsalgorithmen. Dazu gehören Entscheidungsbäume, Naïve Bayes, logistische Regression und lineare Regression. Das Spannende an diesen Algorithmen ist, dass sie dabei helfen können, die Zukunft vorherzusagen - oder zumindest die Dinge vorherzusagen, die wir noch nicht sicher wissen, wie z. B. die Wahrscheinlichkeit, dass du aufgrund deines Online-Verhaltens ein Auto kaufst, ob eine E-Mail aufgrund der darin enthaltenen Wörter Spam ...