Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 25. Pipelines de traitement des données
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre se concentre sur les défis concrets que pose la gestion de pipelines de traitement de données profonds et complexes. Il examine le continuum de fréquence entre les pipelines périodiques qui s'exécutent très rarement et les pipelines continus qui ne s'arrêtent jamais de fonctionner, et discute des discontinuités qui peuvent produire des problèmes opérationnels importants. Une nouvelle approche du modèle leader-suiveur est présentée comme une alternative plus fiable et plus évolutive au pipeline périodique pour le traitement des Big Data.
Origine du modèle de conception de pipeline
L'approche classique du traitement des données consiste à écrire un programme qui lit les données, les transforme d'une certaine manière souhaitée et produit de nouvelles données. Généralement, le programme est programmé pour s'exécuter sous le contrôle d'un programme de planification périodique tel que cron. Ce modèle de conception est appelé pipeline de données. Les pipelines de données remontent aussi loin que les co-routines [Con63], les fichiers de communication DTSS [Bul80], le pipe UNIX [McI86], et plus tard, les pipelines ETL,1 mais ces pipelines ont fait l'objet d'une attention accrue avec l'essor du "Big Data", ou "ensembles de données si volumineux et si complexes ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access