Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Annexe C. Exemple de document sur l'état d'un incident
Sonnet de Shakespeare++ Surcharge : 2015-10-21 Informations sur la gestion des incidents : http://incident-management-cheat-sheet
(Les communications permettent de mettre à jour le résumé). Résumé: Le service de recherche de Shakespeare subit des échecs en cascade parce qu'un sonnet nouvellement découvert ne figure pas dans l'index de recherche.
Statut: actif, incident #465
Poste(s) de commandement: #shakespeare sur IRC
Hiérarchie de commandement (tous les intervenants)
-
Commandant de l'incident actuel : jennifer
-
Responsable des opérations : docbrown
-
Responsable de la planification : jennifer
-
Responsable de la communication : jennifer
-
-
Prochain commandant du lieu de l'incident : à déterminer
(Mise à jour au moins toutes les quatre heures et lors du transfert du rôle de responsable des communications). État détaillé (dernière mise à jour le 2015-10-21 15:28 UTC par jennifer).
Critères de sortie :
-
Nouveau sonnet ajouté au corpus de recherche Shakespeare TODO
-
Respecter les objectifs de disponibilité (99,99%) et de latence (99%ile < 100 ms) pour 30+ minutes TODO
Liste TODO et bogues classés :
-
Exécute un job MapReduce pour réindexer le corpus de Shakespeare FAIT
-
Emprunter des ressources d'urgence pour augmenter la capacité de production FAIT
-
Activer le condensateur de flux pour équilibrer la charge entre les clusters (Bug 5554823) TODO
Chronologie des incidents (le plus récent en premier : les heures sont ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access