Kapitel 2. Wie Spark funktioniert

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden das allgemeine Design von Spark sowie sein Platz im Big-Data-Ökosystem vorgestellt.Spark wird oft als Alternative zu Apache MapReduce betrachtet, da Spark auch für die verteilte Datenverarbeitung mit Hadoop verwendet werden kann.1 Wie wir in diesem Kapitel besprechen werden, unterscheiden sich die Designprinzipien von Spark deutlich von denen von MapReduce. Im Gegensatz zu Hadoop MapReduce muss Spark nicht zusammen mit Apache Hadoop ausgeführt werden - auch wenn das oft der Fall ist. Spark hat Teile seiner API, seines Designs und der unterstützten Formate von anderen bestehenden Computing-Frameworks übernommen, insbesondere von DryadLINQ.2 Sparks Interna, vor allem der Umgang mit Fehlern, unterscheiden sich jedoch von vielen traditionellen Systemen. Sparks Fähigkeit, die "Lazy Evaluation" bei Speicherberechnungen zu nutzen, macht es besonders einzigartig. Die Macher von Spark sind der Meinung, dass Spark die erste High-Level-Programmiersprache für schnelle, verteilte Datenverarbeitung ist.3

Um das Beste aus Spark herauszuholen, ist es wichtig, einige der Prinzipien zu verstehen, die bei der Entwicklung von Spark angewandt wurden, und zu wissen, wie Spark-Programme ausgeführt werden. In diesem Kapitel geben wir einen umfassenden Überblick über das Spark-Modell für paralleles Rechnen und erläutern ...

Get Hochleistungsfunken now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.