Kapitel 10. Spark Komponenten und Pakete

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Spark verfügt über eine große Anzahl von Komponenten, die als integriertes System zusammenarbeiten sollen, und viele von ihnen werden als Teil von Spark verteilt.Dies unterscheidet sich vom Hadoop-Ökosystem, in dem es für jede Aufgabe unterschiedliche Projekte oder Systeme gibt. Du hast bereits gesehen, wie du die Spark Core-, SQL- und ML-Komponenten effektiv nutzen kannst, und in diesem Kapitel lernst du die Streaming-Komponenten von Spark sowie die externen/gemeinschaftlichen Komponenten (oft als Pakete bezeichnet) kennen. Ein weitgehend integriertes System bietet Spark zwei Vorteile: Es vereinfacht sowohl die Bereitstellung/Cluster-Verwaltung als auch die Anwendungsentwicklung, da weniger Abhängigkeiten und Systeme zu beachten sind.

Schon die frühen Versionen von Spark boten Werkzeuge, die traditionell die Koordination mehrerer Systeme erfordert hätten, wie in Abbildung 10-1 dargestellt.

Spark Components Diagram
Abbildung 10-1. Diagramm der Spark-Komponenten

Da Datasetund die Spark SQL-Engine zu einem Baustein für andere Komponenten innerhalb von Spark geworden sind, stellt die in Abbildung 10-2 dargestellte kleine Umstrukturierung eine aktuellere Version dar, die zwei der neuesten Spark-Komponenten, Spark ML und Structured Streaming, ...

Get Hochleistungsfunken now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.