Kapitel 16. Ausfälle aufspüren
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Eine Verbesserung der Zuverlässigkeit im Laufe der Zeit ist nur möglich, wenn du von einer bekannten Ausgangssituation ausgehst und den Fortschritt verfolgen kannst. "Outalator", unser Ausfall-Tracker, ist eines der Werkzeuge, mit denen wir genau das tun. Outalator ist ein System, das passiv alle von unseren Überwachungssystemen gesendeten Warnmeldungen empfängt und uns ermöglicht, diese Daten zu kommentieren, zu gruppieren und zu analysieren.
Systematisches Lernen aus vergangenen Problemen ist für ein effektives Servicemanagement unerlässlich. Postmortems (siehe Kapitel 15) liefern detaillierte Informationen zu einzelnen Ausfällen, aber sie sind nur ein Teil der Antwort. Sie werden nur für Vorfälle mit großen Auswirkungen geschrieben, so dass Probleme, die im Einzelfall nur geringe Auswirkungen haben, aber häufig und weit verbreitet sind, nicht in ihren Anwendungsbereich fallen. Ebenso liefern Postmortems in der Regel nützliche Erkenntnisse für die Verbesserung eines einzelnen Dienstes oder einer Reihe von Diensten, lassen aber möglicherweise Möglichkeiten außer Acht, die im Einzelfall nur geringe Auswirkungen haben, oder Möglichkeiten, die ein schlechtes Kosten-Nutzen-Verhältnis aufweisen, aber große horizontale Auswirkungen haben würden.1
Wir können auch nützliche ...
Get Site Reliability Engineering now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.