Kapitel 8. Das strukturierte Streaming-Programmiermodell

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Structured Streaming baut auf den APIs von Spark SQL DataFrameund Datasetauf. Durch die Erweiterung dieser APIs zur Unterstützung von Streaming-Workloads erbt Structured Streaming die Eigenschaften der von Spark SQL eingeführten Hochsprache sowie die zugrundeliegenden Optimierungen, einschließlich der Verwendung des Catalyst-Abfrageoptimierers und der Speicherverwaltung und Codegenerierung mit geringem Overhead, die von Project Tungsten bereitgestellt werden. Gleichzeitig wird Structured Streaming in allen unterstützten Sprachbindungen für Spark SQL verfügbar. Dies sind Scala, Java, Python und R: Scala, Java, Python und R, obwohl einige der fortgeschrittenen Funktionen für das Zustandsmanagement derzeit nur in Scala verfügbar sind. Dank der Zwischenabfrage-Darstellung, die in Spark SQL verwendet wird, ist die Leistung der Programme unabhängig von der verwendeten Sprachbindung identisch.

Structured Streaming führt die Unterstützung für die Ereigniszeit in allen Fenster- und Aggregationsoperationen ein, was es einfach macht, Logik zu programmieren, die die Zeit verwendet, zu der die Ereignisse erzeugt wurden, im Gegensatz zu der Zeit, zu der sie in die Verarbeitungs-Engine gelangen, auch bekannt als Verarbeitungszeit. Du hast diese Konzepte in "Die Wirkung der Zeit" kennengelernt .

Mit der Verfügbarkeit ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.