Kapitel 21. Zeitabhängige Stream-Verarbeitung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wie bereits angedeutet hat und wie wir in früheren Transformationen gezeigt haben, bietet Spark Streaming die Möglichkeit, zeitbasierte Datenaggregate zu erstellen. Im Gegensatz zu Structured Streaming sind die Out-of-the-Box-Fähigkeiten von Spark Streaming in diesem Bereich auf die Verarbeitungszeit beschränkt, die, wenn du dich an "Der Effekt der Zeit" erinnerst , die Zeit ist, in der die Streaming-Engine die Ereignisse verarbeitet.
In diesem Kapitel werden wir uns die verschiedenen Aggregationsfunktionen von Spark Streaming ansehen. Obwohl sie auf die Verarbeitungszeit beschränkt sind, bieten sie eine reichhaltige Semantik und können hilfreich sein, um Daten skalierbar und ressourcenschonend zu verarbeiten.
Fenster-Aggregate
Die Aggregation ist ein häufiges Muster bei der Verarbeitung von Datenströmen und spiegelt die unterschiedlichen Interessen der Datenproduzenten (am Eingang) und der Datenkonsumenten (am Ausgang) wider.
Wie in "Fensteraggregationen" beschrieben , kann das Konzept eines Zeitfensters dabei helfen, Aggregate zu erstellen, die sich über große Zeiträume erstrecken. Die Spark Streaming-API bietet Definitionen für die beiden allgemeinen Fensterkonzepte, die in diesem Abschnitt vorgestellt wurden, nämlich Tumbling und Sliding Windows, und stellt spezielle Reduktionsfunktionen zur Verfügung, ...
Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.