Capítulo 5. Google DiRT: Pruebas de recuperación ante desastres

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

"La esperanza no es una estrategia". Este es el lema del equipo de Ingeniería de Fiabilidad de Sitios Web (SRE) de Google y encarna a la perfección la filosofía central de la Ingeniería del Caos. Un sistema puede estar diseñado para tolerar fallos, pero hasta que no se prueban explícitamente las condiciones de fallo a escala, siempre existe el riesgo de que las expectativas y la realidad no coincidan. El programa DiRT (Pruebas de Recuperación de Desastres) de Google fue fundado por ingenieros de fiabilidad de sitios (SRE) en 2006 para instigar intencionadamente fallos en sistemas tecnológicos y procesos empresariales críticos con el fin de exponer riesgos no contabilizados. Los ingenieros que impulsaron el programa DiRT hicieron la observación clave de que analizar las emergencias en producción resulta mucho más fácil cuando no se trata realmente de una emergencia.

Las pruebas de catástrofes ayudan a demostrar la resistencia de un sistema cuando los fallos se gestionan con elegancia, y exponen los riesgos de fiabilidad de forma controlada cuando las cosas no son tan elegantes. Exponer los riesgos de fiabilidad durante un incidente controlado permite un análisis exhaustivo y una mitigación preventiva, en lugar de esperar a que los problemas salgan a la luz sólo por las circunstancias, cuando ...

Get Ingeniería del caos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.