Capítulo 15. La cultura postmortem: Aprender del fracaso

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El coste del fracaso es la educación.

Devin Carraway

Como SREs, trabajamos con sistemas distribuidos, complejos y a gran escala. Mejoramos constantemente nuestros servicios con nuevas funciones y añadimos nuevos sistemas. Los incidentes y las interrupciones son inevitables dada nuestra escala y velocidad de cambio. Cuando se produce un incidente, solucionamos el problema subyacente, y los servicios vuelven a sus condiciones normales de funcionamiento. A menos que dispongamos de algún proceso formalizado para aprender de estos incidentes, pueden repetirse ad infinitum. Si no se controlan, los incidentes pueden multiplicar su complejidad o incluso producirse en cascada, sobrecargando un sistema y a sus operadores y, en última instancia, afectando a nuestros usuarios. Por tanto, las autopsias son una herramienta esencial para la SRE.

El concepto postmortem es bien conocido en la industria tecnológica[All12]. Un postmortem es un registro escrito de un incidente, su impacto, las acciones emprendidas para mitigarlo o resolverlo, la(s) causa(s) raíz y las acciones de seguimiento para evitar que el incidente se repita. Este capítulo describe los criterios para decidir cuándo realizar postmortems, algunas buenas prácticas en torno a los postmortems y ...

Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.