Kapitel 11. Verwalten, Bereitstellen und Skalieren von Machine Learning Pipelines mit Apache Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorigen Kapitel haben wir beschrieben, wie du mit MLlib Pipelines für maschinelles Lernen erstellst. In diesem Kapitel geht es darum, wie du die von dir trainierten Modelle verwalten und einsetzen kannst. Am Ende dieses Kapitels wirst du in der Lage sein, MLflow zu nutzen, um deine MLlib-Modelle zu verfolgen, zu reproduzieren und bereitzustellen, die Schwierigkeiten und Kompromisse zwischen verschiedenen Modellbereitstellungsszenarien zu diskutieren und skalierbare Machine Learning-Lösungen zu entwickeln. Bevor wir uns mit dem Einsatz von Modellen befassen, wollen wir zunächst einige bewährte Methoden für die Modellverwaltung besprechen, damit deine Modelle für den Einsatz bereit sind.

Model Management

Bevor du dein Machine-Learning-Modell einsetzt, solltest du sicherstellen, dass du die Leistung des Modells reproduzieren und verfolgen kannst. Für uns bedeutet die durchgängige Reproduzierbarkeit von Machine-Learning-Lösungen, dass wir in der Lage sein müssen, den Code, der ein Modell erzeugt hat, die beim Training verwendete Umgebung, die Daten, auf denen es trainiert wurde, und das Modell selbst zu reproduzieren. Jeder Datenwissenschaftler erinnert dich gerne daran, dass du deine Seeds so setzen musst, dass du deine Experimente reproduzieren kannst ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.