Kapitel 25. Vorverarbeitung und Feature Engineering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Jeder Datenwissenschaftler, der etwas auf sich hält, weiß, dass eine der größten Herausforderungen (und Zeitfresser) bei fortgeschrittenen Analysen die Vorverarbeitung ist. Das liegt nicht daran, dass die Programmierung besonders kompliziert ist, sondern daran, dass du die Daten, mit denen du arbeitest, genau kennen musst und wissen musst, was dein Modell braucht, um diese Daten erfolgreich zu nutzen. In diesem Kapitel erfährst du, wie du Spark für die Vorverarbeitung und das Feature Engineering nutzen kannst. Wir gehen die wichtigsten Voraussetzungen durch, die du erfüllen musst, um ein MLlib-Modell zu trainieren, und zwar in Bezug auf die Struktur deiner Daten. Anschließend besprechen wir die verschiedenen Tools, die Spark für diese Art von Arbeit zur Verfügung stellt.

Modelle entsprechend deinem Anwendungsfall formatieren

Um Daten für die verschiedenen Advanced Analytics-Tools von Spark vorzuverarbeiten, musst du dein Ziel berücksichtigen. In der folgenden Liste findest du die Anforderungen an die Datenstruktur für die einzelnen Advanced-Analytics-Aufgaben in MLlib:

  • Bei den meisten Klassifizierungs- und Regressionsalgorithmen willst du deine Daten in eine Spalte des Typs Double zur Darstellung des Labels und eine Spalte des Typs Vector (entweder dicht oder spärlich) zur Darstellung der Merkmale ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.