Rozdział 22. Radzenie sobie z awariami kaskadowymi
Autor: Mike Ulrich
Jeśli nie uda ci się przy pierwszym podejściu, zastosuj odczekiwanie wykładnicze.
— Dan Sandler, inżynier oprogramowania w Google’u
Dlaczego ludzie stale zapominają, że należy dodać trochę stresu?
— Ade Oshineye, Developer Advocate w Google’u
Awaria kaskadowa cechuje się tym, że z czasem nasila się z powodu dodatniego sprzężenia zwrotnego[1]. Może ono występować, gdy awaria części systemu zwiększa prawdopodobieństwo problemów w innych fragmentach. Na przykład jedna replika usługi może przestać działać z powodu przeciążenia, potęgując obciążenie w pozostałych replikach i zwiększając prawdopodobieństwo ich awarii. Prowadzi to do efektu domina i wyłączenia wszystkich replik usługi. ...
Get Site Reliability Engineering now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.