Kapitel 18. Das Spark Streaming-Ausführungsmodell

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Als wir unsere Spark Streaming-Reise in Kapitel 16 begannen, haben wir besprochen, wie die DStream-Abstraktion die Programmier- und Betriebsmodelle dieser Streaming-API verkörpert. Nachdem wir in Kapitel 17 das Programmiermodell kennengelernt haben, sind wir bereit, das Ausführungsmodell hinter der Spark Streaming-Laufzeit zu verstehen.

In diesem Kapitel lernst du die Bulk-Synchron-Architektur kennen und erfährst, wie sie uns einen Rahmen bietet, um über das Microbatch-Streaming-Modell nachzudenken. Dann untersuchen wir, wie Spark Streaming Daten mithilfe des Empfängermodells konsumiert und welche Garantien dieses Modell in Bezug auf die Zuverlässigkeit der Datenverarbeitung bietet. Schließlich untersuchen wir die direkte API als Alternative zu Empfängern für Streaming-Datenanbieter, die eine zuverlässige Datenlieferung bieten können.

Die Bulk-Synchronous-Architektur

In Kapitel 5 haben wir das BSP-Modell ( Bulk-Synchronous Parallelism ) als theoretischen Rahmen diskutiert, der es uns ermöglicht, zu erklären, wie verteilte Stream-Verarbeitung auf Mikrostapeln von Daten aus einem Stream durchgeführt werden kann.

Spark Streaming folgt einem Verarbeitungsmodell, das der Bulk-synchronen Parallelität ähnelt:

  • Es wird davon ausgegangen, dass alle Spark-Executors im Cluster eine synchrone Uhr haben, die ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.