Kapitel 23. Arbeiten mit Spark SQL

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher haben wir gesehen, wie Spark Streaming als eigenständiges Framework funktionieren kann, um Streams aus vielen Quellen zu verarbeiten und Ergebnisse zu produzieren, die zur weiteren Verwendung gesendet oder gespeichert werden können.

Isolierte Daten sind nur von begrenztem Wert. Oft wollen wir Datensätze kombinieren, um Zusammenhänge zu erforschen, die erst durch die Zusammenführung von Daten aus verschiedenen Quellen deutlich werden.

Im speziellen Fall von Streaming-Daten sind die Daten, die wir in jedem Batch-Intervall sehen, nur eine Stichprobe eines potenziell unendlichen Datensatzes. Um den Wert der beobachteten Daten zu einem bestimmten Zeitpunkt zu erhöhen, müssen wir daher unbedingt die Möglichkeit haben, sie mit dem Wissen zu kombinieren, das wir bereits haben. Dabei kann es sich um historische Daten handeln, die wir in Dateien oder einer Datenbank gespeichert haben, um ein Modell, das wir auf der Grundlage der Daten vom Vortag erstellt haben, oder sogar um frühere Streaming-Daten.

Einer der wichtigsten Vorteile von Spark Streaming ist die nahtlose Interoperabilität mit anderen Spark-Frameworks. Diese Synergie zwischen den Spark-Modulen erweitert das Spektrum der datenorientierten Anwendungen, die wir erstellen können, und führt zu Anwendungen mit einer geringeren Komplexität, als wenn wir beliebige ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.