Ingegneria dell'affidabilità dei siti
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Appendice C. Esempio di documento sullo stato dell'incidente
Sovraccarico di sonetti di Shakespeare++: 2015-10-21 Informazioni sulla gestione degli incidenti: http://incident-management-cheat-sheet
(Le comunicazioni devono essere aggiornate). Sommario: Il servizio di ricerca di Shakespeare ha subito un fallimento a cascata a causa di un sonetto appena scoperto non presente nell'indice di ricerca.
Stato: attivo, incidente n. 465
Posto/i di comando: #shakespeare su IRC
Gerarchia di comando (tutti i soccorritori)
-
Attuale comandante dell'incidente: jennifer
-
Responsabile delle operazioni: docbrown
-
Responsabile della pianificazione: jennifer
-
Responsabile delle comunicazioni: jennifer
-
-
Prossimo comandante dell'incidente: da definire
(Aggiornamento almeno ogni quattro ore e al passaggio del ruolo di Comms Lead). Stato dettagliato (ultimo aggiornamento 2015-10-21 15:28 UTC da jennifer)
Criteri di uscita:
-
Nuovo sonetto aggiunto al corpus di ricerca di Shakespeare TODO
-
Rispetto agli SLO di disponibilità (99,99%) e latenza (99%ile < 100 ms) per 30+ minuti TODO
Elenco TODO e bug archiviati:
-
Esegui un lavoro MapReduce per reindicizzare il corpus di Shakespeare FATTO
-
Prendi in prestito risorse d'emergenza per aumentare la capacità FATTO
-
Abilita il condensatore di flusso per bilanciare il carico tra i cluster (Bug 5554823) TODO
Cronologia degli incidenti (prima i più recenti: gli orari sono in UTC)
-
2015-10-21 15:28 UTC jennifer
-
Aumento della capacità di servizio ...
-
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access