Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 14. Gestion des incidents
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Une gestion efficace des incidents est essentielle pour limiter les perturbations causées par un incident et rétablir le fonctionnement normal de l'entreprise le plus rapidement possible. Si tu n'as pas joué à l'avance ta réponse aux incidents potentiels, une gestion des incidents fondée sur des principes peut s'envoler dans des situations réelles.
Ce chapitre dresse le portrait d'un incident qui échappe à tout contrôle en raison de pratiques de gestion des incidents ad hoc, décrit une approche bien gérée de l'incident et examine comment le même incident aurait pu se dérouler s'il avait été géré avec une gestion des incidents qui fonctionne bien.
Incidents non gérés
Mets-toi à la place de Marie, l'ingénieur de garde de la société. Il est 14 heures, un jeudi après-midi, et ton pager vient d'exploser. La surveillance de la boîte noire t'indique que ton service a cessé de desservir tout trafic dans un centre de données entier. Avec un soupir, tu poses ton café et tu te mets au travail pour réparer le problème. Quelques minutes plus tard, une autre alerte te signale qu'un deuxième centre de données a cessé de servir. Puis le troisième de tes cinq centres de données tombe en panne. Pour aggraver la situation, il y a plus de trafic que les centres de données restants ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access