Ingegneria dell'affidabilità dei siti
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Appendice D. Esempio di autopsia
Sonetto di Shakespeare++ Postmortem (episodio #465)
Data: 2015-10-21
Autori: jennifer, martym, agoogler
Stato: Completato, le azioni sono in corso
Sommario: Ricerca di Shakespeare per 66 minuti durante un periodo di grande interesse per Shakespeare a causa della scoperta di un nuovo sonetto.
Impatto:1 Stima di 1,21 miliardi di query perse, nessun impatto sulle entrate.
Cause principali:2 Guasto a cascata dovuto alla combinazione di un carico eccezionalmente elevato e di una perdita di risorse quando le ricerche fallivano a causa di termini non presenti nel corpus di Shakespeare. Il sonetto appena scoperto utilizzava una parola che non era mai apparsa prima in una delle opere di Shakespeare e che, guarda caso, era il termine cercato dagli utenti. In circostanze normali, la percentuale di fallimenti dovuti a perdite di risorse è abbastanza bassa da non essere notata.
Innesco: Bug latente innescato da un improvviso aumento del traffico.
Risoluzione: Il traffico è stato indirizzato verso un cluster sacrificale e la capacità è stata aumentata di 10 volte per mitigare i guasti a cascata. L'indice aggiornato è stato distribuito, risolvendo l'interazione con il bug latente. Mantenere la capacità extra fino a quando non passa l'ondata di interesse del pubblico per il nuovo sonetto. Individuata una perdita di risorse e distribuita la soluzione.
Rilevamento: Borgmon ha rilevato un alto livello di HTTP 500 e ha chiamato in causa il personale.
Punti di azione ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access