Kapitel 10. Strukturierte Streaming-Quellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorangegangenen Kapiteln hast du einen guten Überblick über das Structured Streaming-Programmiermodell erhalten und erfahren, wie du es praktisch anwenden kannst. Du hast auch gesehen, dass Quellen der Ausgangspunkt jedes Structured Streaming-Programms sind. In diesem Kapitel untersuchen wir die allgemeinen Merkmale einer Quelle und gehen näher auf die verfügbaren Quellen ein, einschließlich ihrer verschiedenen Konfigurationsoptionen und Funktionsweisen.

Quellen verstehen

In Structured Streaming ist eine Quelle eine Abstraktion, die Streaming-Datenanbieter repräsentiert. Das Konzept hinter der Quellschnittstelle ist, dass Streaming-Daten ein kontinuierlicher Fluss von Ereignissen über die Zeit sind, der als eine Sequenz gesehen werden kann, die mit einem monoton inkrementierenden Zähler indiziert wird.

Abbildung 10-1 veranschaulicht, wie jedes Ereignis im Stream mit einem immer größer werdenden Versatz betrachtet wird.

spas 1001
Abbildung 10-1. Ein Stream als indizierte Abfolge von Ereignissen

Offsets, wie in Abbildung 10-2 dargestellt, dienen dazu, Daten von der externen Quelle anzufordern und anzuzeigen, welche Daten bereits verbraucht wurden. Structured Streaming weiß, wann es Daten zu verarbeiten gibt, ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.