Chapitre 83. Le temps (sémantique) n'attend pas
Marta Paes Moreira et Fabian Hueske
Les pipelines de données évoluent, passant du stockage de données arrivant en continu et de leur traitement sous forme de lots délimités, à des approches de streaming qui ingèrent et traitent en continu des flux de données non délimités. Généralement, l'objectif est de réduire la latence entre le moment où les données sont reçues et celui où elles sont traitées.
Une différence importante entre le traitement par lots et le traitement par flux est la notion de complétude. Dans le traitement par lots, les données sont toujours considérées comme complètes (telles que définies par l'entrée), mais les applications de traitement par flux doivent raisonner sur la complétude de leur entrée lorsqu'elles ingèrent des flux de données non limités. Par exemple, une tâche courante consiste à calculer des agrégats pour des intervalles de temps réguliers, comme compter le nombre de clics par heure. Lors de la mise en œuvre d'une telle application de traitement de flux, tu dois décider quand commencer et arrêter de compter (c'est-à-dire quel compte incrémenter pour un événement).
L'approche ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access