Kapitel 12. Feature Engineering in PySpark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Dieses Kapitel behandelt Entwurfsmuster für die Arbeit mit Datenmerkmalen - alle messbaren Attribute, von Autopreisen bis hin zu Genwerten, Hämoglobinwerten oder Bildungsniveaus - bei der Erstellung von Machine-Learning-Modellen (auch bekannt als Feature Engineering). Diese Prozesse (Extrahieren, Umwandeln und Auswählen von Merkmalen) sind für die Erstellung effektiver maschineller Lernmodelle unerlässlich. Das Feature-Engineering ist eines der wichtigsten Themen beim maschinellen Lernen, denn der Erfolg oder Misserfolg eines Modells bei der Vorhersage der Zukunft hängt vor allem von den gewählten Features ab.

Spark bietet eine umfassende API für maschinelles Lernen für viele bekannte Algorithmen wie lineare Regression, logistische Regression und Entscheidungsbäume. Ziel dieses Kapitels ist es, grundlegende Werkzeuge und Techniken in PySpark vorzustellen, mit denen du alle Arten von Pipelines für maschinelles Lernen erstellen kannst. Das Kapitel stellt die leistungsstarken Werkzeuge und Dienstprogramme von Spark für maschinelles Lernen vor und bietet Beispiele für die Verwendung der PySpark-API. Die Fähigkeiten, die du hier lernst, werden für angehende Datenwissenschaftler/innen oder Dateningenieur/innen nützlich sein. Mein Ziel ist es nicht, dich mit den berühmten Algorithmen des maschinellen Lernens wie ...

Get Datenalgorithmen mit Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.