Kapitel 23. Management kritischer Zustände: Verteilter Konsens für Verlässlichkeit

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Prozesse stürzen ab oder müssen möglicherweise neu gestartet werden. Festplatten schlagen fehl. Naturkatastrophen können mehrere Rechenzentren in einer Region ausfallen lassen. Site Reliability Engineers müssen diese Art von Ausfällen vorhersehen und Strategien entwickeln, um die Systeme trotz dieser Ausfälle am Laufen zu halten. Diese Strategien beinhalten in der Regel den Betrieb solcher Systeme an mehreren Standorten. Die geografische Verteilung eines Systems ist relativ einfach, bringt aber auch die Notwendigkeit mit sich, einen konsistenten Überblick über den Systemzustand zu behalten, was ein komplexeres und schwierigeres Unterfangen ist.

Gruppen von Prozessen wollen sich vielleicht zuverlässig auf Fragen wie diese einigen:

  • Welcher Prozess ist der Anführer einer Gruppe von Prozessen?

  • Was ist die Menge der Prozesse in einer Gruppe?

  • Wurde eine Nachricht erfolgreich an eine verteilte Warteschlange übergeben?

  • Hat ein Prozess einen Pachtvertrag oder nicht?

  • Was ist ein Wert in einem Datenspeicher für einen bestimmten Schlüssel?

Wir haben festgestellt, dass verteiltes Konsensieren beim Aufbau zuverlässiger und hochverfügbarer Systeme, die eine konsistente Sicht auf einen bestimmten Systemzustand erfordern, ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.