Rozdział 15. Kultura analizy zdarzeń — wyciąganie wniosków z niepowodzeń

Autorzy: John Lunney i Sue Lueder
Redakcja: Gary O’Connor

Ceną porażki jest nauka.

— Devin Carraway

W roli inżynierów SRE pracujemy nad złożonymi i rozproszonymi systemami działającymi na dużą skalę. Nieustannie wzbogacamy usługi o nowe funkcje i dodajemy nowe systemy. Z powodu skali działalności i szybkości wprowadzania zmian incydenty i przestoje są nieuniknione. Gdy następuje incydent, rozwiązujemy podstawowy problem, a usługi wracają do normalnej pracy. Bez sformalizowanego procesu uczenia się na podstawie takich incydentów mogą się one powtarzać w nieskończoność. Przy braku kontroli incydenty mogą stawać się coraz bardziej złożone, a nawet prowadzić do kaskadowych ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.