Rozdział 23. Zarządzanie krytycznym stanem — zapewnianie niezawodności za pomocą konsensusu w środowisku rozproszonym

Autor: Laura Nolan
Redakcja: Tim Harvey

Procesy ulegają awarii lub wymagają restartu. Dyski twarde zawodzą. Katastrofy naturalne mogą uszkodzić kilka centrów danych w określonym regionie. Inżynierowie SRE muszą przewidywać tego rodzaju problemy i opracowywać strategie podtrzymywania działania systemów mimo takich sytuacji. Te strategie zwykle obejmują uruchamianie systemów w różnych lokalizacjach. Geograficzne rozproszenie systemu jest stosunkowo łatwe, wymaga jednak utrzymywania spójnego widoku stanu systemu, co jest bardziej wyrafinowanym i trudniejszym przedsięwzięciem.

Grupy procesów mogą dążyć do uzgodnienia następujących ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.