Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 16. Suivi des pannes
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
L'amélioration de la fiabilité au fil du temps n'est possible que si tu pars d'une base de référence connue et que tu peux suivre les progrès réalisés. "Outalator", notre outil de suivi des pannes, est l'un des outils que nous utilisons à cette fin. Outalator est un système qui reçoit passivement toutes les alertes envoyées par nos systèmes de surveillance et qui nous permet d'annoter, de regrouper et d'analyser ces données.
Tirer systématiquement les leçons des problèmes passés est essentiel pour une gestion efficace des services. Les analyses rétrospectives (voir chapitre 15) fournissent des informations détaillées sur les pannes individuelles, mais elles ne constituent qu'une partie de la réponse. De même, les analyses rétrospectives ont tendance à fournir des informations utiles pour l'amélioration d'un seul service ou d'un ensemble de services, mais peuvent passer à côté d'opportunités qui n'auraient qu'un faible effet dans des cas individuels, ou d'opportunités qui ont un mauvais rapport coût/bénéfice, mais qui auraient un impact horizontal important.1
Nous pouvons également obtenir des informations utiles à partir de questions telles que : "Combien d'alertes par équipe de garde cette équipe reçoit-elle ?", "Quel est le ratio d'alertes exploitables/non exploitables au cours ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access