Anhang D. Beispiel Postmortem
Shakespeare Sonnet++ Postmortem (Vorfall #465)
Datum: 2015-10-21
Autoren: jennifer, martym, agoogler
Status: Vollständig, Aktionspunkte in Arbeit
Zusammenfassung: Shakespeare Search down für 66 Minuten während der Zeit des großen Interesses an Shakespeare aufgrund der Entdeckung eines neuen Sonetts.
Auswirkungen:1 Geschätzte 1,21 Mrd. verlorene Abfragen, keine Auswirkungen auf die Einnahmen.
Grundursachen:2 Kaskadierender Ausfall aufgrund einer Kombination aus außergewöhnlich hoher Last und einem Ressourcenleck, wenn die Suche fehlschlug, weil Begriffe nicht im Shakespeare-Korpus enthalten waren. In dem neu entdeckten Sonett wurde ein Wort verwendet, das noch nie zuvor in einem Werk von Shakespeare aufgetaucht war, und das zufällig der Begriff war, nach dem die Nutzer suchten. Unter normalen Umständen ist die Rate der Aufgabenausfälle aufgrund von Ressourcenlecks niedrig genug, um unbemerkt zu bleiben.
Auslöser: Ein latenter Fehler, der durch einen plötzlichen Anstieg des Verkehrsaufkommens ausgelöst wird.
Lösung: Der Datenverkehr wurde auf einen Opfercluster umgeleitet und die Kapazität um das 10-fache erhöht, um Kaskadenausfälle zu vermeiden. Der Index wurde aktualisiert und die Interaktion mit dem latenten Fehler behoben. Aufrechterhaltung der zusätzlichen Kapazität, bis das öffentliche Interesse am neuen Sonett vorüber ist. Ressourcenleck identifiziert und behoben.
Erkennung: Borgmon erkannte eine hohe Anzahl von HTTP 500s und rief auf Abruf. ...
Get Site Reliability Engineering now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.