Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 23. Gestion de l'état critique : Consensus distribué pour la fiabilité
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les processus se bloquent ou doivent être redémarrés. Les disques durs tombent en panne. Les catastrophes naturelles peuvent détruire plusieurs centres de données dans une région. Les ingénieurs en fiabilité des sites doivent anticiper ces types de défaillances et élaborer des stratégies pour que les systèmes continuent de fonctionner malgré tout. Ces stratégies impliquent généralement de faire fonctionner ces systèmes sur plusieurs sites. La répartition géographique d'un système est relativement simple, mais elle introduit également la nécessité de maintenir une vue cohérente de l'état du système, ce qui est une entreprise plus nuancée et plus difficile.
Les groupes de processus peuvent vouloir se mettre d'accord de manière fiable sur des questions telles que :
-
Quel processus est le chef d'un groupe de processus ?
-
Quel est l'ensemble des processus d'un groupe ?
-
Un message a-t-il été envoyé avec succès à une file d'attente distribuée ?
-
Un processus fait-il l'objet d'un bail ou non ?
-
Qu'est-ce qu'une valeur dans un datastore pour une clé donnée ?
Nous avons constaté que le consensus distribué est efficace pour construire des systèmes fiables et hautement disponibles qui nécessitent une vue cohérente d'un certain état ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access