Kapitel 14. Verwaltung von Vorfällen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein effektives Störungsmanagement ist der Schlüssel, um die durch einen Vorfall verursachte Störung zu begrenzen und den normalen Geschäftsbetrieb so schnell wie möglich wiederherzustellen. Wenn du deine Reaktion auf potenzielle Zwischenfälle nicht im Voraus geplant hast, kann ein prinzipientreues Zwischenfallmanagement im Ernstfall scheitern.

In diesem Kapitel wird ein Vorfall geschildert, der aufgrund von Ad-hoc-Verfahren für das Vorfallsmanagement außer Kontrolle gerät, und es wird aufgezeigt, wie derselbe Vorfall mit einem gut funktionierenden Vorfallsmanagement hätte ablaufen können.

Nicht gemanagte Vorfälle

Versetz dich in die Lage von Mary, der Bereitschaftsingenieurin der Firma. Es ist 14.00 Uhr an einem Donnerstagnachmittag und dein Pager ist gerade explodiert. Die Blackbox-Überwachung teilt dir mit, dass dein Dienst in einem ganzen Rechenzentrum keinen Datenverkehr mehr durchführt. Seufzend setzt du deinen Kaffee ab und machst dich an die Arbeit, das Problem zu beheben. Ein paar Minuten später meldet dir eine weitere Meldung, dass ein zweites Rechenzentrum nicht mehr erreichbar ist. Dann schlägt auch noch das dritte deiner fünf Rechenzentren fehl. Erschwerend kommt hinzu, dass die verbleibenden Rechenzentren den Datenverkehr nicht ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.