Kapitel 9. Spark MLlib und ML
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Spark verfügt über zwei Bibliotheken für maschinelles Lernen - Spark MLlib und Spark ML - mit sehr unterschiedlichen APIs, aber ähnlichen Algorithmen.Diese Bibliotheken für maschinelles Lernen übernehmen viele der Leistungsaspekte der RDD- und Dataset-APIs, auf denen sie basieren, haben aber auch ihre eigenen Aspekte. MLlib ist die erste der beiden Bibliotheken und befindet sich derzeit im Wartungs-/Fehlerbehebungsmodus. Normalerweise würden wir die Spark MLlib nicht besprechen und uns auf die neue API konzentrieren, aber für bestehende Algorithmen wurden nicht alle Funktionen auf die neue Spark ML API portiert.Spark ML ist die neuere, von Scikit-Learn inspirierte Bibliothek für maschinelles Lernen, an der aktiv gearbeitet wird.
Die Wahl zwischen Spark MLlib und Spark ML
Auf den ersten Blick besteht der offensichtlichste Unterschied zwischen MLlib und ML in den Datentypen, mit denen sie arbeiten. MLlib unterstützt RDDs und ML unterstützt DataFrame
s und Dataset
s.Der Unterschied im Datenformat ist nicht so wichtig, da beide mit RDDs und Dataset
s von Vektoren arbeiten, die leicht dargestellt und zwischen den Formaten RDD und Dataset
konvertiert werden können.
Aus Sicht der Designphilosophie konzentriert sich die MLlib von Spark darauf, einen Kernsatz von Algorithmen zur Verfügung zu stellen, während die Datenpipeline, ...
Get Hochleistungsfunken now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.