Kapitel 25. Vorverarbeitung und Feature Engineering
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Jeder Datenwissenschaftler, der etwas auf sich hält, weiß, dass eine der größten Herausforderungen (und Zeitfresser) bei fortgeschrittenen Analysen die Vorverarbeitung ist. Das liegt nicht daran, dass die Programmierung besonders kompliziert ist, sondern daran, dass du die Daten, mit denen du arbeitest, genau kennen musst und wissen musst, was dein Modell braucht, um diese Daten erfolgreich zu nutzen. In diesem Kapitel erfährst du, wie du Spark für die Vorverarbeitung und das Feature Engineering nutzen kannst. Wir gehen die wichtigsten Voraussetzungen durch, die du erfüllen musst, um ein MLlib-Modell zu trainieren, und zwar in Bezug auf die Struktur deiner Daten. Anschließend besprechen wir die verschiedenen Tools, die Spark für diese Art von Arbeit zur Verfügung stellt.
Modelle entsprechend deinem Anwendungsfall formatieren
Um Daten für die verschiedenen Advanced Analytics-Tools von Spark vorzuverarbeiten, musst du dein Ziel berücksichtigen. In der folgenden Liste findest du die Anforderungen an die Datenstruktur für die einzelnen Advanced-Analytics-Aufgaben in MLlib:
-
Bei den meisten Klassifizierungs- und Regressionsalgorithmen willst du deine Daten in eine Spalte des Typs
Doublezur Darstellung des Labels und eine Spalte des TypsVector(entweder dicht oder spärlich) zur Darstellung der Merkmale ...