Kapitel 7. Einführung in das strukturierte Streaming

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In datenintensiven Unternehmen finden wir viele große Datensätze: Logdateien von Internet-Servern, Tabellen über das Einkaufsverhalten und NoSQL-Datenbanken mit Sensordaten, um nur einige Beispiele zu nennen. Alle diese Datensätze haben den gleichen grundlegenden Lebenszyklus: Sie waren zu irgendeinem Zeitpunkt leer und wurden nach und nach mit ankommenden Datenpunkten gefüllt, die auf eine Art sekundäre Speicherung geleitet wurden. Dieser Prozess der Datenankunft ist nichts anderes als ein Datenstrom, der auf einer sekundären Speicherung materialisiert wird. Wir können dann unsere bevorzugten Analysetools auf diese Datensätze in Ruhe anwenden, indem wir Techniken verwenden, die als Stapelverarbeitung bekannt sind, weil sie große Datenmengen auf einmal verarbeiten und in der Regel eine beträchtliche Zeitspanne in Anspruch nehmen, die zwischen Minuten und Tagen liegt.

Die Dataset Abstraktion in Spark SQL ist eine solche Möglichkeit, Daten im Ruhezustand zu analysieren. Sie ist besonders nützlich für Daten, die strukturiert sind, d.h. einem definierten Schema folgen. Die Dataset API in Spark kombiniert die Ausdruckskraft einer SQL-ähnlichen API mit typsicheren Sammeloperationen, die an die Scala-Sammlungen und das Resilient Distributed Dataset (RDD) Programmiermodell erinnern. Gleichzeitig erweitert ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.