Kapitel 15. Wie Spark auf einem Cluster läuft

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher haben wir uns in diesem Buch auf die Eigenschaften von Spark als Programmierschnittstelle konzentriert. Wir haben besprochen, wie die strukturierten APIs eine logische Operation in einen logischen Plan aufteilen und diesen in einen physischen Plan umwandeln, der aus RDD-Operationen (Resilient Distributed Dataset) besteht, die auf dem gesamten Rechnercluster ausgeführt werden. In diesem Kapitel geht es darum, was passiert, wenn Spark diesen Code ausführt. Wir besprechen dies unabhängig von der Implementierung - es hängt weder vom verwendeten Clustermanager noch von dem Code ab, den du ausführst. Letzten Endes läuft jeder Spark-Code auf die gleiche Weise.

Dieses Kapitel behandelt mehrere wichtige Themen:

  • Die Architektur und Komponenten einer Spark-Anwendung

  • Der Lebenszyklus einer Spark-Anwendung innerhalb und außerhalb von Spark

  • Wichtige Ausführungseigenschaften auf niedriger Ebene, wie z. B. Pipelining

  • Was es braucht, um eine Spark-Anwendung auszuführen, als Überleitung zu Kapitel 16.

Beginnen wir mit der Architektur.

Die Architektur einer Spark-Anwendung

In Kapitel 2 haben wir einige der wichtigsten Komponenten einer Spark-Anwendung besprochen. Schauen wir uns diese noch einmal an:

Der Spark-Treiber

Der Treiber ist der Prozess "auf dem Fahrersitz" deiner Spark-Anwendung. Er steuert ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.