Rozdział 16. Śledzenie przestojów

Autor: Gabe Krabbe
Redakcja: Lisa Carey

Zwiększanie wraz z upływem czasu niezawodności jest możliwe tylko wtedy, kiedy znasz początkowy poziom bazowy i możesz śledzić postępy. Outalator, nasz mechanizm śledzenia przestojów, to jedno z narzędzi, których używamy w tym właśnie celu. Ten system pasywnie odbiera wszystkie alarmy przesyłane przez systemy monitorowania i umożliwia nam komentowanie, grupowanie oraz analizowanie tych danych.

Systematyczne uczenie się na podstawie wcześniejszych problemów jest niezbędne do skutecznego zarządzania usługą. Analizy zdarzeń (zob. rozdział 15.) zapewniają szczegółowe informacje na temat pojedynczych przestojów, ale są jedynie częścią rozwiązania. Pisze się je tylko w wyniku ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.