Kapitel 20. Grundlagen der Stream-Verarbeitung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Stream-Verarbeitung ist eine wichtige Voraussetzung für viele Big Data-Anwendungen. Sobald eine Anwendung etwas Wertvolles berechnet - z. B. einen Bericht über Kundenaktivitäten oder ein neues maschinelles Lernmodell - möchte ein Unternehmen dieses Ergebnis kontinuierlich in einer Produktionsumgebung berechnen. Aus diesem Grund beginnen Unternehmen aller Größenordnungen, Stream Processing zu integrieren, oft schon in der ersten Version einer neuen Anwendung.

Glücklicherweise verfügt Apache Spark über eine lange Geschichte der High-Level-Unterstützung für Streaming. Im Jahr 2012 hat das Projekt Spark Streaming und seine DStreams-API integriert, eine der ersten APIs, die Streaming-Verarbeitung mit High-Level-Funktionsoperatoren wie map und reduce ermöglicht. Hunderte von Unternehmen nutzen DStreams inzwischen in der Produktion für große Echtzeitanwendungen und verarbeiten oft Terabytes an Daten pro Stunde. Ähnlich wie die Resilient Distributed Dataset (RDD)-API basiert die DStreams-API jedoch auf relativ einfachen Operationen mit Java/Python-Objekten, die die Möglichkeiten für Optimierungen auf höherer Ebene einschränken. Daher hat das Spark-Projekt 2016 Structured Streaming eingeführt, eine neue Streaming-API, die direkt auf DataFrames aufbaut und sowohl umfangreiche Optimierungen als auch eine deutlich ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.