Kapitel 16. Pipeline Orchestration Service

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bislang haben wir in der Operationalisierungsphase die einzelnen Abfragen und Programme optimiert, und jetzt ist es an der Zeit, diese in der Produktion zu planen und auszuführen. Eine Laufzeitinstanz einer Abfrage oder eines Programms wird als Auftrag bezeichnet. Bei der Planung von Aufträgen müssen die richtigen Abhängigkeiten berücksichtigt werden. Wenn ein Auftrag zum Beispiel Daten aus einer bestimmten Tabelle liest, kann er erst ausgeführt werden, wenn der vorherige Auftrag, der die Tabelle befüllt hat, abgeschlossen ist. Generell muss die Pipeline von Aufträgen in einer bestimmten Reihenfolge orchestriert werden, von der Erfassung über die Vorbereitung bis zur Verarbeitung (siehe Abbildung 16-1).

A logical representation of the pipeline as a sequence of dependent jobs executed to generate insights in the form of ML models or dashboards
Abbildung 16-1. Eine logische Darstellung der Pipeline als eine Abfolge von abhängigen Aufträgen, die ausgeführt werden, um Erkenntnisse in Form von ML-Modellen oder Dashboards zu gewinnen.

Die Orchestrierung von Job-Pipelines für Datenverarbeitung und ML hat mehrere Probleme. Erstens ist die Definition und Verwaltung von Abhängigkeiten zwischen den Aufträgen ad hoc und fehleranfällig. Datennutzer müssen diese Abhängigkeiten spezifizieren und während des gesamten Lebenszyklus der Pipeline-Entwicklung versionskontrollieren. ...

Get Die Self-Service-Daten-Roadmap now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.