Kapitel 6. Das Resilienzmodell von Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den meisten Fällen handelt es sich bei einem Streaming-Auftrag um einen lang laufenden Auftrag. Definitionsgemäß führen Datenströme, die im Laufe der Zeit beobachtet und verarbeitet werden, zu Aufträgen, die kontinuierlich ausgeführt werden. Bei der Verarbeitung von Daten können Zwischenergebnisse anfallen, die nur schwer reproduzierbar sind, nachdem die Daten das Verarbeitungssystem verlassen haben. Daher sind die Kosten eines Ausfalls beträchtlich und in einigen Fällen ist eine vollständige Wiederherstellung nur schwer möglich.

In verteilten Systemen, vor allem in solchen, die auf handelsüblicher Hardware basieren, hängt der Ausfall von der Größe des Systems ab: Je größer das System ist, desto höher ist die Wahrscheinlichkeit, dass eine Komponente zu irgendeinem Zeitpunkt fehlschlägt. Verteilte Stream-Prozessoren müssen dieses Ausfallrisiko in ihrem Betriebsmodell berücksichtigen.

In diesem Kapitel befassen wir uns mit der Widerstandsfähigkeit, die uns die Apache Spark-Plattform bietet: wie sie in der Lage ist, Teilausfälle wiederherzustellen und welche Garantien wir für die Daten erhalten, die das System im Falle eines Ausfalls durchlaufen. Wir beginnen mit einem Überblick über die verschiedenen internen Komponenten von Spark und ihre Beziehung zur zentralen Datenstruktur. Mit diesem Wissen kannst du ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.