Chapitre 19. Modèles de conception de pipelines de données pour la réutilisation et l'extensibilité
Mukul Sood
La conception de pipelines de données extensibles, modulaires et réutilisables est un vaste sujet qui concerne l'ingénierie des données, car elle nécessite de faire face à des changements constants sur différentes couches telles que les sources de données, l'ingestion, la validation, le traitement, la sécurité, la journalisation et la surveillance. Ces changements se produisent à des rythmes variables d'une couche à l'autre et ont un impact différent sur les pipelines de données en fonction du niveau d'abstraction et de la conception du pipeline.
Pour mettre en contexte les couches d'un pipeline de données et commencer à cartographier la configuration, le pipeline peut être considéré sous une forme distillée comme comprenant des couches d'ingestion, de traitement et de résultats. Pour chaque couche, nous pouvons penser en termes de fonctions qui correspondent à des blocs fonctionnels. Le contenu des blocs change en fonction des exigences de la couche. Cela nous aide à penser en termes de modèles et de configuration qui pourraient représenter le graphe acyclique dirigé (DAG) du pipeline.
Les couches d'ingestion, de traitement et de résultat ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access