Kapitel 25. Pipelines für die Datenverarbeitung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Dieses Kapitel befasst sich mit den Herausforderungen, die sich in der Praxis bei der Verwaltung von Datenverarbeitungspipelines mit unterschiedlicher Tiefe und Komplexität ergeben. Es betrachtet das Frequenzkontinuum zwischen periodischen Pipelines, die sehr selten laufen, bis hin zu kontinuierlichen Pipelines, die nie aufhören, zu laufen, und erörtert die Unstetigkeiten, die zu erheblichen betrieblichen Problemen führen können. Das Leader-Follower-Modell wird als eine zuverlässigere und besser skalierbare Alternative zur periodischen Pipeline für die Verarbeitung von Big Data vorgestellt.

Der Ursprung des Pipeline-Designmusters

Der klassische Ansatz zur Datenverarbeitung besteht darin, ein Programm zu schreiben, das Daten einliest, sie auf die gewünschte Weise umwandelt und neue Daten ausgibt. Normalerweise wird das Programm so geplant, dass es unter der Kontrolle eines periodischen Zeitplanungsprogramms wie cron läuft. Dieses Entwurfsmuster wird als Datenpipeline bezeichnet. Datenpipelines gibt es schon seit den Co-Routinen [Con63], den DTSS-Kommunikationsdateien [Bul80], der UNIX-Pipe [McI86] und später den ETL-Pipelines,1 Mit dem Aufkommen von "Big Data", d. h. Datenmengen, die so groß und komplex sind, dass herkömmliche Datenverarbeitungsanwendungen ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.