Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Annexe D. Exemple de post-mortem
Sonnet de Shakespeare++ Postmortem (incident #465)
Date: 2015-10-21
Auteurs: jennifer, martym, agoogler
État: Terminé, actions en cours
Résumé: Shakespeare Search down pendant 66 minutes pendant une période de très grand intérêt pour Shakespeare en raison de la découverte d'un nouveau sonnet.
Impact:1 Estimation de 1,21 milliard de requêtes perdues, pas d'impact sur les recettes.
Causes profondes:2 Défaillance en cascade due à la combinaison d'une charge exceptionnellement élevée et d'une fuite de ressources lorsque les recherches échouaient parce que les termes ne figuraient pas dans le corpus Shakespeare. Le sonnet nouvellement découvert utilisait un mot qui n'était jamais apparu auparavant dans l'une des œuvres de Shakespeare, et qui s'est avéré être le terme recherché par les utilisateurs. Dans des circonstances normales, le taux d'échec des tâches dû aux fuites de ressources est suffisamment faible pour passer inaperçu.
Déclencheur: Bug latent déclenché par une augmentation soudaine du trafic.
Résolution: Diriger le trafic vers le cluster sacrificiel et ajouter 10x la capacité pour atténuer les défaillances en cascade. L'index mis à jour a été déployé, ce qui a permis de résoudre l'interaction avec le bogue latent. Maintien d'une capacité supplémentaire jusqu'à ce que l'intérêt du public pour le nouveau sonnet augmente. Fuite de ressources identifiée et correctif déployé.
Détection: Borgmon a détecté un niveau élevé de HTTP 500s et s'est mis ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access