Kapitel 12. Resiliente verteilte Datensätze (RDDs)

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorherigen Teil des Buches wurden die strukturierten APIs von Spark behandelt. Du solltest diese APIs in fast allen Szenarien bevorzugen. Dennoch gibt es Fälle, in denen die Manipulation auf höherer Ebene nicht ausreicht, um das geschäftliche oder technische Problem zu lösen, das du zu lösen versuchst. In diesen Fällen musst du die APIs der unteren Ebene von Spark verwenden, insbesondere das Resilient Distributed Dataset (RDD), den SparkContext und verteilte gemeinsame Variablen wie Akkumulatoren und Broadcast-Variablen. Die folgenden Kapitel dieses Teils befassen sich mit diesen APIs und wie du sie nutzen kannst.

Warnung

Wenn du ganz neu bei Spark bist, ist dies nicht der richtige Ort für den Anfang. Fange mit den strukturierten APIs an, dann wirst du schneller produktiv sein!

Was sind die Low-Level-APIs?

Es gibt zwei Gruppen von Low-Level-APIs: eine für die Manipulation verteilter Daten (RDDs) und eine weitere für die Verteilung und Manipulation verteilter gemeinsamer Variablen (Broadcast-Variablen und Akkumulatoren).

Wann sollte man die Low-Level-APIs verwenden?

Du solltest die untergeordneten APIs im Allgemeinen in drei Situationen verwenden:

  • Du brauchst einige Funktionen, die du in den übergeordneten APIs nicht finden kannst, z. B. wenn du eine sehr genaue Kontrolle über die physische ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.