Kapitel 27. Streaming-Approximation und Sampling-Algorithmen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Verarbeitung von Datenströmen stellt eine besondere Herausforderung dar, wenn es darum geht, Zusammenfassungen der beobachteten Daten über die Zeit zu erstellen. Da wir nur eine Chance haben, die Werte in einem Datenstrom zu beobachten, werden selbst Abfragen, die bei einem begrenzten Datensatz als einfach gelten, zu einer Herausforderung, wenn du dieselbe Frage über einen Datenstrom beantworten willst.

Der Kern des Problems liegt darin, dass diese Abfragen nach einer Art globaler Zusammenfassung oder einem Supremum-Ergebnis fragen, das zum Beispiel die Betrachtung des gesamten Datensatzes erfordert:

  • Die Anzahl aller unterschiedlichen Elemente im Stream (Zusammenfassung)

  • Die k höchsten Elemente des Stroms (globaler Supremum)

  • Die k häufigsten Elemente des Streams (globales Supremum)

Wenn die Daten aus einem Stream stammen, besteht die Schwierigkeit natürlich darin, den gesamten Datensatz auf einmal zu sehen. Diese Art von Abfragen kann naiv beantwortet werden, indem man den gesamten Stream speichert und ihn dann als Datenstapel behandelt. Aber diese Speicherung ist nicht nur nicht immer möglich, sondern auch sehr umständlich. Wie du sehen wirst, können wir prägnante Datendarstellungen erstellen, die die wichtigsten Zahlen und Merkmale unseres Datenstroms widerspiegeln. Diese ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.