Kapitel 24. Checkpointing

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Der Akt des Checkpointing besteht darin, regelmäßig die Informationen zu speichern, die notwendig sind, um eine zustandsbehaftete Streaming-Anwendung neu zu starten, ohne dass Informationen verloren gehen und ohne dass alle Daten, die bis zu diesem Zeitpunkt gesehen wurden, neu verarbeitet werden müssen.

Checkpointing ist ein Thema, das bei zustandsbehafteten Spark-Streaming-Anwendungen besondere Aufmerksamkeit verdient. Ohne Checkpointing müssten wir beim Neustart einer zustandsbehafteten Streaming-Anwendung den Zustand bis zu dem Punkt wiederherstellen, an dem die Anwendung zuvor angehalten wurde. Im Falle einer Fensteroperation könnte dieser Wiederherstellungsprozess möglicherweise aus stundenlangen Daten bestehen, was eine größere Zwischenspeicherung erfordern würde. Schwieriger wird es, wenn wir eine beliebige zustandsbehaftete Aggregation implementieren, wie wir in Kapitel 22 gesehen haben. Ohne Checkpoints müsste selbst eine einfache zustandsbehaftete Anwendung, die z. B. die Anzahl der Besucher auf jeder Seite einer Website zählt, alle jemals gesichteten Daten neu verarbeiten, um ihren Zustand auf einem konsistenten Niveau wiederherzustellen; eine Herausforderung, die von sehr schwierig bis hin zu unmöglich reichen kann, da die erforderlichen Daten möglicherweise nicht mehr im System vorhanden sind.

Checkpoints ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.