Kapitel 3. Streaming-Architekturen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Implementierung eines verteilten Datenanalysesystems ( ) muss sich mit der Verwaltung eines Pools von Rechenressourcen befassen, die in Form von hausinternen Rechnerclustern oder reservierten Cloud-Kapazitäten zur Verfügung stehen, um den Rechenbedarf einer Abteilung oder sogar eines ganzen Unternehmens zu decken. Da Teams und Projekte selten über einen längeren Zeitraum hinweg den gleichen Bedarf haben, amortisieren sich Rechnercluster am besten, wenn sie als gemeinsame Ressource von mehreren Teams genutzt werden, was die Bewältigung des Problems der Mandantenfähigkeit erfordert.

Wenn die Bedürfnisse zweier Teams unterschiedlich sind, ist es wichtig, beiden einen fairen und sicheren Zugang zu den Ressourcen des Clusters zu geben und gleichzeitig sicherzustellen, dass die Rechenressourcen im Laufe der Zeit optimal genutzt werden.

Diese Notwendigkeit hat die Nutzer großer Cluster dazu gezwungen, dieser Heterogenität mit Modularität zu begegnen, so dass mehrere Funktionsblöcke als austauschbare Teile einer Datenplattform entstehen. Wenn wir uns beispielsweise auf die Speicherung in einer Datenbank als Funktionsblock beziehen, ist die gebräuchlichste Komponente, die diese Funktionalität bereitstellt, eine relationale Datenbank wie PostgreSQL oder MySQL, aber wenn die Streaming-Anwendung Daten mit einem sehr hohen ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.