Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 15. La culture post-mortem : Apprendre de l'échec
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Le coût de l'échec est l'éducation.
Devin Carraway
En tant que SRE, nous travaillons avec des systèmes distribués complexes et à grande échelle. Nous améliorons constamment nos services avec de nouvelles fonctionnalités et nous ajoutons de nouveaux systèmes. Les incidents et les pannes sont inévitables compte tenu de notre échelle et de la rapidité des changements. Lorsqu'un incident se produit, nous corrigeons le problème sous-jacent et les services reviennent à leurs conditions normales de fonctionnement. Si nous n'avons pas mis en place un processus formel pour tirer les leçons de ces incidents, ils risquent de se reproduire à l'infini. Si l'on n'y prend garde, les incidents peuvent se multiplier en complexité, voire en cascade, submerger un système et ses opérateurs et, en fin de compte, avoir un impact sur nos utilisateurs. C'est pourquoi les postmortems constituent un outil essentiel pour le SRE.
Le concept de postmortem est bien connu dans l'industrie technologique[All12]. Un postmortem est une trace écrite d'un incident, de son impact, des mesures prises pour l'atténuer ou le résoudre, de la ou des causes profondes, et des mesures de suivi pour éviter que l'incident ne se reproduise. Ce chapitre décrit les critères permettant ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access